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PREFÁCIO 


Antes de existirem computadores, havia algoritmos. Mas, agora que temos computadores, há ainda mais 
algoritmos, e os algoritmos estão no coração da computação. 

Este livro é uma introdução abrangente ao moderno estudo de algoritmos para computadores. Apresenta muitos 
algoritmos e os examina com considerável profundidade, embora torne seu projeto e sua análise acessíveis a leitores de 
todos os níveis. Tentamos manter as explicações em um nível elementar sem sacrificar a profundidade do enfoque ou o 
rigor matemático. 

Cada capítulo apresenta um algoritmo, uma técnica de projeto, uma área de aplicação ou um tópico relacionado. 
Algoritmos são descritos em linguagem comum e em pseudocódigo projetado para ser fácil de ler por qualquer pessoa 
que tenha estudado um pouco de programação. O livro contém 244 figuras — algumas com várias partes — que 
ilustram como os algoritmos funcionam. Visto que enfatizamos a eficiência como um critério de projeto, incluímos 
análises cuidadosas dos tempos de execução de todos os nossos algoritmos. 

O texto foi planejado primariamente para uso em cursos de graduação e pós-graduação em algoritmos ou 
estruturas de dados. Como discute questões de engenharia relacionadas ao projeto de algoritmos, bem como aspectos 
matemáticos, é igualmente adequado para profissionais técnicos autodidatas. 

Nesta terceira edição, mais uma vez atualizamos o livro inteiro. As mudanças são abrangentes e incluem novos 
capítulos, revisão de pseudocódigos e um estilo de redação mais ativo. 


Ao professor 


Este livro foi projetado para ser ao mesmo tempo versátil e completo. Você descobrirá sua utilidade para uma 
variedade de cursos, desde graduação em estruturas de dados até pós-graduação em algoritmos. Como oferecemos 
uma quantidade consideravelmente maior de material da que poderia ser abordada em um curso típico de um período, 
você pode considerar o livro como um bufê de vários pratos do qual pode selecionar e extrair o material que melhor 
atender ao curso que deseja ministrar. 

Você verá que é fácil organizar seu curso usando apenas os capítulos de que precisar. Os capítulos são 
relativamente autônomos, de modo que você não precisa se preocupar com uma dependência inesperada e 
desnecessária de um capítulo em relação a outro. Cada capítulo apresenta primeiro o material mais fácil e, em seguida, 
o material mais dificil; os limites das seções são pontos de parada naturais. Em cursos de graduação você poderia 
utilizar somente as primeiras seções de um capítulo; em cursos de pós-graduação, o capítulo inteiro. 

Incluímos 957 exercícios e 158 problemas. Cada seção termina com exercícios, e cada capítulo com problemas. 
Em geral, os exercícios são perguntas curtas que testam o domínio básico do assunto. Alguns são exercícios simples de 
autoaferição, enquanto outros são mais substanciais e apropriados para o aluno resolver com mais tempo e calma. Os 


problemas são estudos de casos mais elaborados que, muitas vezes, apresentam novo material, frequentemente 
consistem em várias perguntas que conduzem o aluno pelas etapas exigidas para chegar a uma solução. 

Ao contrário da prática que adotamos em edições anteriores deste livro, nesta apresentamos soluções para alguns 
problemas, mas de modo algum para todos os problemas e exercícios. Essas soluções estão disponíveis no site da 
editora: www.elsevier.com.br/cormen. Seria interessante você visitar esse site para verificar se ele contém a solução 
para um exercício ou problema que planeja apresentar a seus alunos. Esperamos que o conjunto de soluções reunidos 
no site aumente ao longo do tempo, de modo que você deve visitá-lo toda vez que ministrar o curso. 

Assinalamos com asteriscos (*) as seções e os exercícios mais adequados para alunos de pós-graduação do que 
de graduação. Uma seção marcada com asterisco não é necessariamente mais difícil que outra que não tenha asterisco, 
mas pode exigir o entendimento de matemática mais avançada. De modo semelhante, exercícios assinalados por 
asteriscos podem exigir um conhecimento mais avançado ou criatividade acima da média. 


Ao aluno 


Esperamos que este livro didático proporcione uma introdução agradável à área de algoritmos. Tentamos tornar 
cada algoritmo acessível e interessante. Para ajudá-lo quando encontrar algoritmos pouco familiares ou difíceis, 
descrevemos cada um deles etapa por etapa. Também apresentamos explicações cuidadosas dos fundamentos 
matemáticos necessários para entender a análise dos algoritmos. Se você já tiver alguma familiaridade com um tópico, 
perceberá que os capítulos estão organizados de modo que você possa apenas ler rapidamente as seções introdutórias 
e passar rapidamente para o material mais avançado. 

Este é um livro extenso, e sua turma provavelmente só examinará uma parte de seu material. Porém, procuramos 
torná-lo útil para você, agora como livro didático, e também mais tarde, em sua carreira, como um guia de referência de 
matemática ou um manual de engenharia. 

Quais são os pré-requisitos para a leitura deste livro? 


* Você deve ter alguma experiência em programação. Em particular, deve entender procedimentos recursivos e 
estruturas de dados simples como arranjos e listas ligadas. 

* Você deve ter alguma facilidade com demonstrações matemáticas, em especial por indução. Algumas partes do 
livro dependem de algum conhecimento de cálculo diferencial elementar. Além disso, as Partes I e VIII deste livro 
ensinam todas as técnicas matemáticas de que você necessitará. 


Apresentamos soluções para alguns deles, que estão disponíveis em: www.elsevier.com.br/cormen. Você pode 
consultar o site e comparar suas soluções com as nossas. 


Ao profissional 


A ampla variedade de tópicos neste livro faz dele um excelente manual sobre algoritmos. Como cada capítulo é 
relativamente autônomo, você pode se concentrar nos tópicos que mais o interessem. 

A maioria dos algoritmos que discutimos tem grande utilidade prática. Portanto, abordamos questões de 
implementação e outras questões de engenharia. Muitas vezes damos alternativas práticas para os poucos algoritmos 
cujo interesse é primordialmente teórico. 

Se desejar implementar qualquer dos algoritmos, verá que a tradução do nosso pseudocódigo para a sua linguagem 
de programação favorita é uma tarefa razoavelmente direta. Projetamos o pseudocódigo para apresentar cada algoritmo 
de forma clara e sucinta. Consequentemente, não abordamos tratamento de erros e outras questões de engenharia de 
software que exigem características específicas do seu ambiente de programação. Tentamos apresentar cada algoritmo 
de modo simples e direto sem permttir que as idiossincrasias de determinada linguagem de programação obscureçam 
sua essência. 


Se você estiver usando este livro por conta própria, sem seguir um curso, pode ser que você não consiga ter 
acesso às soluções de problemas e exercícios. No nosso site: http://mi- tpress.mit.edu/algorithms/ há links para as 
respostas de alguns problemas e exercícios para que você possa verificar suas respostas. Por favor, não nos mande 
suas respostas. 


Aos nossos colegas 


Apresentamos indicações e bibliografia extensivas para a literatura corrente. Cada capítulo termina com um 
conjunto de notas do capítulo que dão detalhes e referências históricas. Contudo, as notas dos capítulos não oferecem 
uma referência completa para toda a área de algoritmos. Embora talvez seja difícil de acreditar, dado o tamanho deste 
livro, restrições de espaço nos impediram de incluir muitos algoritmos interessantes . 

Apesar dos inúmeros pedidos dos alunos, preferimos manter a nossa política de não apresentar referências para as 
soluções de problemas e exercícios, para evitar que eles cedam à tentação de consultar uma solução dada em vez de 
determiná-la. 


Mudanças na terceira edição 


O que mudou entre a segunda e a terceira edições deste livro? Sobre a magnitude das mudanças entre essas duas 
edições e entre a primeira e a segunda, dizemos o mesmo que dissemos na segunda edição: dependendo do ponto de 
vista de cada leitor, a mudança pode não ser muito grande ou pode ser bem grande. 

Um rápido exame do sumário mostra que a maior parte dos capítulos e seções da segunda edição aparecem na 
terceira edição. Eliminamos dois capítulos e uma seção, mas acrescentamos três novos capítulos e duas novas seções 
além desses novos capítulos. 

Mantivemos a organização híbrida das duas primeiras edições. Em vez de organizar os capítulos só por domínios 
de problemas ou só de acordo com técnicas, este livro tem elementos de ambos. Contém capítulos baseados em 
técnicas de divisão e conquista, programação dinâmica, algoritmos gulosos, análise amortizada, NP-completude e 
algoritmos de aproximação. Mas também traz partes inteiras dedicadas a ordenação, estruturas de dados para 
conjuntos dinâmicos e algoritmos para problemas de grafos. Entendemos que, embora você precise saber como aplicar 
técnicas para projetar e analisar algoritmos, os problemas raramente informam de antemão quais técnicas são as mais 
adequadas para resolvê-los. 

Damos a seguir um resumo das mudanças mais significativas para a terceira edição: 


* | Acrescentamos novos capítulos sobre árvores de van Emde Boas e algoritmos multithread, e agora a parte de 
fundamentos do material sobre matrizes ocupa um dos apêndices. 

* Revisamos o capítulo sobre recorrências de modo a dar um tratamento mais abrangente à técnica de divisão e 
conquista, e suas duas primeiras seções aplicam essa técnica para resolver dois problemas. A segunda seção desse 
capítulo apresenta o algoritmo de Strassen para multiplicação de matrizes, que transferimos do capítulo sobre 
operações com matrizes. 

* Elimmnamos dois capítulos que raramente eram ensinados: heaps binomiais e redes de ordenação. Uma ideia 
fundamental no capítulo sobre redes de ordenação, o princípio 0-1, aparece, nesta edição, dentro do Problema 8- 
7 como o lema de ordenação 0-1 para algoritmos de comparação e permutação. O tratamento dos heaps de 
Fibonacci não depende mais do heaps binomiais como precursor. 

* Revisamos o tratamento de programação dinâmica e algoritmos gulosos. Agora a programação dinâmica começa 
com um problema mais interessante, corte de hastes de aço, do que o problema de programação de linha de 
montagem na segunda edição. Além disso, enfatizamos a memoização com um pouco mais de intensidade do que o 
fizemos na segunda edição, e apresentamos a noção do grafo de subproblema como um modo de entender o 
tempo de execução de um algoritmo de programação dinâmica. Em nosso exemplo de abertura sobre algoritmos 
gulosos, o problema de seleção de atividades, chegamos ao algoritmo guloso mais diretamente do que o fizemos na 


segunda edição. 

* O modo de eliminar um nó em árvores de busca binária (que inclui árvores rubronegras) agora garante que o nó 
requisitado para eliminação seja o nó realmente eliminado. Nas duas primeiras edições, em certos casos, algum 
outro nó seria eliminado e seu conteúdo seria transferido para o nó enviado para o procedimento de eliminação. 
Com o nosso novo modo de eliminar nós, se outros componentes de um programa mantiverem ponteiros para os 
nós na árvore, não terminarão erroneamente com ponteiros inativos para nós que já foram eliminados. 

* O material sobre redes de fluxo agora baseia os fluxos inteiramente em arestas. Essa abordagem é mais intuitiva do 
que o fluxo em rede usado nas duas primeiras edições. 

* Como o material sobre fundamentos de matrizes e o algoritmo de Strassen passou para outros capítulos, o capítulo 
sobre operações com matrizes é menor do que o da segunda edição. 

* | Modificamos o tratamento do algoritmo de correspondência de cadeias de Knuth-Morris-Pratt. 

*- Corrigimos vários erros. A maioria deles aparece na errata da segunda edição publicada em nosso site, mas outros, 


não. 
* Atendendo a muitos pedidos, mudamos a sintaxe (até certo ponto) do nosso pseudocódigo. Agora usamos “=? 
para indicar atribuição e “==” para testar igualdade, exatamente como fazem as linguagens C, C++, Java e Python. 


De modo semelhante, eliminamos as palavras-chave do e then e adotamos “//” como símbolo para comentários de 
final de linha. Agora também usamos a notação de ponto para indicar atributos de objetos. Nosso pseudocódigo 
continua sendo orientado a procedimento e não a objeto. Em outras palavras, em vez de executar métodos em 
objetos, simplesmente chamamos procedimentos e passamos objetos como parâmetros. 

*— Adicionamos 100 novos exercícios e 28 novos problemas. Além disso, atualizamos muitas citações bibliográficas e 
acrescentamos várias outras novas. 

* Finalmente, repassamos o livro inteiro e reescrevemos sentenças, parágrafos e seções para tornar a linguagem mais 
clara e mais ativa. 
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FUNDAMENTOS 


InrroDUÇÃO 


Esta parte o fará refletir sobre o projeto e a análise de algoritmos. Ela foi planejada para ser uma introdução suave 
ao modo como especificamos algoritmos, a algumas das estratégias de projeto que usaremos ao longo deste livro e a 
muitas das ideias fundamentais empregadas na análise de algoritmos. As partes posteriores deste livro serão elaboradas 
sobre essa base. 

O Capítulo 1 é uma visão geral de algoritmos e de seu lugar em modernos sistemas de computação. Esse capítulo 
define o que é um algoritmo e dá uma lista com alguns exemplos. Além disso, traz a tese de que devemos considerar 
algoritmos como uma tecnologia, lado a lado com hardware rápido, interfaces gráficas do usuário, sistemas orientados a 
objetos e redes. 

No Capítulo 2, veremos nossos primeiros algoritmos, que resolvem o problema de ordenar uma sequência de n 
números. Eles são escritos em um pseudocódigo que, embora não possa ser traduzido diretamente para nenhuma 
linguagem de programação convencional, transmite a estrutura do algoritmo com clareza suficiente para que você possa 
implementá-la na linguagem de sua preferência. Os algoritmos de ordenação que examinamos são a ordenação por 
inserção, que utiliza uma abordagem incremental, e a ordenação por intercalação, que usa uma técnica recursiva 
conhecida como “divisão e conquista”. Embora o tempo exigido por esses dois algoritmos aumente com o valor n, a 
taxa de aumento de cada um é diferente. Determinamos esses tempos de execução no Capítulo 2 e desenvolvemos uma 
notação útil para expressá-los. 

O Capítulo 3 define com exatidão essa notação, que denominamos notação assintótica. O capítulo começa 
definindo várias notações assintóticas que utilizamos para limitar os tempos de execução dos algoritmos por cima e por 
baixo. O restante do Capítulo 3 é primariamente uma apresentação da notação matemática, cuja finalidade é mais a de 
assegurar que o uso que você faz da notação corresponda à que fazemos neste livro do que lhe ensinar novos conceitos 
matemáticos. 

O Capítulo 4 examina mais a fundo o método de divisão e conquista apresentado no Capítulo 2. Dá exemplos 
adicionais de algoritmos de divisão e conquista, incluindo o surpreendente método de Strassen para multiplicação de 
duas matrizes quadradas. O Capítulo 4 contém métodos para solução de recorrências que são úteis para descrever os 
tempos de execução de algoritmos recursivos. Uma técnica eficiente é o “método mestre”, que frequentemente usamos 
para resolver recorrências que surgem dos algoritmos de divisão e conquista. Embora grande parte do Capítulo 4 seja 
dedicada a demonstrar a correção do método mestre, você pode saltar essa demonstração e ainda assim empregar o 
método mestre. 

O Capítulo 5 introduz análise probabilística e algoritmos aleatorizados. Normalmente usamos análise probabilística 
para determinar o tempo de execução de um algoritmo em casos em que, devido à presença de uma distribuição de 
probabilidades merente, o tempo de execução pode ser diferente para entradas diferentes do mesmo tamanho. Em 
alguns casos, consideramos que as entradas obedecem a uma distribuição de probabilidades conhecida, de modo que 


calculamos o tempo de execução médio para todas as entradas possíveis. Em outros casos, a distribuição de 
probabilidades não vem das entradas, mas de escolhas aleatórias feitas durante o curso do algoritmo. Um algoritmo 
cujo comportamento seja determinado não apenas por sua entrada mas também pelos valores produzidos por um 
gerador de números aleatórios é um algoritmo aleatorizado. Podemos usar algoritmos aleatorizados para impor uma 
distribuição de probabilidade às entradas — garantindo assim que nenhuma entrada específica sempre cause fraco 
desempenho — ou mesmo para limitar a taxa de erros de algoritmos que têm permissão para produzir resultados 
incorretos em base limitada. 

Os apêndices A-D contêm outro material matemático que você verá que são úteis à medida que ler este livro. É 
provável que você tenha visto grande parte do material dos apêndices antes de ler este livro (embora as definições e 
convenções específicas de notação que usamos possam ser diferentes em alguns casos daquelas que você já viu) e, 
portanto, você deve considerar os apêndices material de referência. Por outro lado, é provável que você ainda não 
tenha visto a maior parte do material contido na Parte I. Todos os capítulos da Parte I e os apêndices foram escritos 
com um toque de tutorial. 


(O PAPEL DOS ALGORITMOS NA COMPUTAÇÃO 


O que são algoritmos? Por que o estudo dos algoritmos vale a pena? Qual é o papel dos algoritmos em relação a 
outras tecnologias usadas em computadores? Neste capítulo, responderemos a essas perguntas. 


1.1 Aircorirmos 


Informalmente, um algoritmo é qualquer procedimento computacional bem definido que toma algum valor ou 
conjunto de valores como entrada e produz algum valor ou conjunto de valores como saída. Portanto, um algoritmo é 
uma sequência de etapas computacionais que transformam a entrada na saída. 

Também podemos considerar um algoritmo como uma ferramenta para resolver um problema computacional 
bem especificado. O enunciado do problema especifica em termos gerais a relação desejada entre entrada e saída. O 
algoritmo descreve um procedimento computacional específico para se consegurr essa relação entre entrada e saída. 

Por exemplo, poderia ser necessário ordenar uma sequência de números em ordem não decrescente. Esse 
problema surge com frequência na prática e oferece um solo fértil para a apresentação de muitas técnicas de projeto e 
ferramentas de análise padronizadas. Vejamos como definr formalmente o problema de ordenação: 


Entrada: Uma sequência de n números (a,, a,, ...; a). 
Saída: Uma permutação (reordenação) (a,”, a”, ..., a”) da sequência de entrada, talque a, '<a;'<..<a,. 


Por exemplo, dada a sequência de entrada (31, 41, 59, 26, 41, 58), um algoritmo de ordenação devolve como 
saída a sequência (26, 31, 41, 41, 58, 59). Tal sequência de entrada é denominada instância do problema de 
ordenação. Em geral, uma instância de um problema consiste na entrada (que satisfaz quaisquer restrições impostas 
no enunciado do problema) necessária para calcular uma solução para o problema. 

Como muitos programas a utilizam como etapa intermediária, a ordenação é uma operação fundamental em ciência 
da computação e, por isso, há um grande número de bons algoritmos de ordenação à nossa disposição. O melhor 
algoritmo para determinada aplicação depende — entre outros fatores — do número de itens a ordenar, do grau de 
ordenação já apresentado por esses itens, das possíveis restrições aos valores dos itens, da arquitetura do computador 
e do tipo de dispositivo de armazenamento que será utilizado: memória principal, discos ou até mesmo fitas. 

Diz-se que um algoritmo é correto se, para toda instância de entrada, ele parar com a saída correta. Dizemos que 
um algoritmo correto resolve o problema computacional dado. Um algoritmo incorreto poderia não parar em algumas 
instâncias de entrada ou poderia parar com uma resposta incorreta. Ao contrário do que se poderia esperar, às vezes os 
algoritmos incorretos podem ser úteis, se pudermos controlar sua taxa de erros. No Capítulo 31, veremos um exemplo 
de algoritmo com taxa de erro controlável quando estudarmos algoritmos para encontrar grandes números primos. 
Porém, de modo geral, nos concentraremos apenas em algoritmos corretos. 

Um algoritmo pode ser especificado em linguagem comum como um programa de computador ou mesmo como 
um projeto de hardware. O único requisito é que a especificação deve fornecer uma descrição precisa do procedimento 
computacional a ser seguido. 


Que tipos de problemas são resolvidos por algoritmos? 


A ordenação não é de modo algum o único problema computacional para o qual os algoritmos foram 
desenvolvidos (e é provável que você já tenha suspeitado disso quando viu o tamanho deste livro.). As aplicações 
práticas de algoritmos estão por toda parte e incluem os exemplos a seguir: 


* O Projeto Genoma Humano vem alcançando grande progresso no cumprimento de suas metas de identificar todos 
os 100.000 genes do DNA humano, determinar as sequências dos três bilhões de pares de bases químicas que 
constituem o DNA humano, armazenar essas informações em bancos de dados e desenvolver ferramentas para 
análise de dados. Cada uma dessas etapas exige algoritmos sofisticados. Embora as soluções para os vários 
problemas envolvidos estejam fora do escopo deste livro, muitos métodos aplicados à resolução desses problemas 
biológicos usam ideias apresentadas em vários capítulos deste livro, permitindo que os cientistas realizem tarefas e, 
ao mesmo tempo, utilizem os recursos com eficiência. As economias são de tempo, tanto humano quanto de 
máquina, e de dinheiro, já que mais informações podem ser extraídas de técnicas de laboratório. 

* A Internet permite que pessoas em todo o mundo acessem e obtenham rapidamente grande quantidade de 
informações. Com o auxílio de algoritmos engenhosos, sites da Internet conseguem gerenciar e manipular esse 
grande volume de dados. Entre os exemplos de problemas que dependem essencialmente da utilização de 
algoritmos citamos a determinação de boas rotas para a transmissão de dados (técnicas para resolver tais 
problemas são apresentadas no Capítulo 24) e a utilização de um mecanismo de busca para encontrar rapidamente 
páginas em que estão determinadas informações (técnicas relacionadas são apresentadas nos Capítulos 11 e 32). 

* O comércio eletrônico permite que mercadorias e serviços sejam negociados e trocados eletronicamente e 
depende do sigilo de informações pessoais, como números de cartões de crédito, senhas e extratos bancários. 
Entre as principais tecnologias utilizadas no comércio eletrônico estão a criptografia de chave pública e as 
assinaturas digitais (estudadas no Capítulo 31), ambas baseadas em algoritmos numéricos e na teoria dos números. 

* Na indústria e em outros empreendimentos comerciais, muitas vezes é preciso alocar recursos escassos da maneira 
mais benéfica possível. Uma empresa petrolífera talvez deseje saber onde localizar seus poços para maximizar o 
lucro esperado. Um político talvez queira determinar onde gastar dinheiro em publicidade de campanha para 
maximizar as chances de vencer uma eleição. Uma empresa de transporte aéreo poderia querer designar 
tripulações a voos da forma menos dispendiosa possível, garantindo que cada voo seja atendido e que as 
regulamentações do governo relativas à escala das tripulações sejam obedecidas. Um provedor de serviços da 
Internet talvez queira definir onde alocar recursos adicionais para servir a seus clientes com mais eficiência. Todos 
esses são exemplos de problemas que podem ser resolvidos com a utilização de programação linear, que 
estudaremos no Capítulo 29. 


Embora alguns dos detalhes desses exemplos estejam fora do escopo deste livro, forneceremos técnicas básicas 
que se aplicam a esses problemas e áreas de problemas. Também mostraremos como resolver muitos problemas 
específicos, inclusive os seguintes: 


* | Temos um mapa rodoviário no qual estão marcadas as distâncias entre cada par de interseções adjacentes e 
queremos determinar a rota mais curta entre uma interseção e outra. O número de rotas possíveis pode ser 
enorme, ainda que sejam descartadas as rotas que se entrecruzam. Como escolher a mais curta de todas as rotas 
possíveis? Aqui, modelamos o mapa rodoviário (que é ele próprio um modelo das estradas reais) como um grafo 
(o que veremos na Parte VI e no Apêndice B) e desejamos determinar o caminho mais curto de um vértice até 
outro no grafo. Veremos como resolver esse problema com eficiência no Capítulo 24. 

* Temos duas sequências ordenadas de símbolos, X = (x1, x2, ..., Xm) € Y = (Yi, Y2,..., Yn) , e queremos determinar 
uma subsequência comum mais longa de X e Y. Uma subsequência de X é apenas X com alguns (ou, 
possivelmente, todos ou nenhum) de seus elementos removidos. Por exemplo, uma subsequência de (4, B, C, D, 
E, F, G) seria (B, C, E, G) . O comprimento de uma subsequência comum mais longa de X e Y nos dá uma ideia 
do grau de semelhança dessas duas sequências. Por exemplo, se as duas sequências forem pares de base em 


filamentos de DNA, poderemos considerá-las semelhantes se tiverem uma subsequência comum longa. Se X tiver 
m símbolos e Ytiver n símbolos, então X e Y terão 2m e 2, possíveis subsequências, respectivamente. Selecionar 
todas as possíveis subsequências de X e Y e então combiná-las poderá tomar um tempo proibitivamente longo, a 
menos que m e n sejam muito pequenos. No Capítulo 15 veremos como usar uma técnica geral conhecida como 
programação dinâmica para resolver esse problema com eficiência muito maior. 

Temos um projeto mecânico apresentado como um catálogo de peças no qual cada uma pode incluir instâncias de 
outras peças e precisamos organizar uma lista ordenada de peças de modo que cada uma apareça antes de 
qualquer peça que a utilize. Se o projeto compreender n peças, então haverá n! ordenações possíveis, onde n! 
denota a função fatorial. Como a função fatorial cresce ainda mais rapidamente do que uma função exponential, 
não existe uma possibilidade viável de gerar cada ordenação possível e então verificar se, dentro daquela 
ordenação, cada peça aparece antes das peças que a utilizam (a menos que tenhamos apenas um pequeno número 
de peças). Esse problema é uma instância de ordenação topológica, e estudaremos como resolvê-lo com eficiência 
no Capítulo 22. 

Temos n pontos no plano e desejamos determinar a envoltória convexa desses pontos. A envoltória convexa é o 
menor polígono convexo que contém os pontos. Intuitivamente, podemos imaginar que cada ponto seja 
representado pela cabeça saliente de um prego fixado a uma tábua. A envoltória convexa seria representada por 
um elástico apertado que contorna todos os pregos. Cada prego pelo qual o elástico passar é um vértice da 
envoltória convexa (veja um exemplo na Figura 33.6). Qualquer um dos 2, subconjuntos dos pontos poderia ser os 
vértices da envoltória convexa. Porém, saber quais pontos são vértices da envoltória convexa não é suficiente, já 
que também precisamos conhecer a ordem em que eles aparecem. Portanto, há muitas escolhas para os vértices da 
envoltória convexa. O Capítulo 33 apresenta dois bons métodos para determinar a envoltória convexa. 


Essas listas estão longe de esgotar os exemplos (como é provável que você já tenha imaginado de novo pelo peso 


deste livro), mas exibem duas características comuns a muitos problemas algorítmicos interessantes: 


l. 


Eles têm muitas soluções candidatas, a grande maioria das quais não resolve o problema que temos em mãos. 
Encontrar uma solução que o resolva, ou uma solução que seja a “melhor”, pode representar um desafio 
significativo. 

Eles têm aplicações práticas. Dentre os problemas da lista que apresentamos, o da determinação do caminho mais 
curto é o que fornece os exemplos mais fáceis. Uma empresa de transporte rodoviário ou ferroviário tem interesse 
financeiro em determinar os caminhos mais curtos em uma rede rodoviária ou ferroviária porque percursos menores 
resultam em menores custos de mão de obra e combustível. Ou um nó de roteamento na Internet pode precisar 
encontrar o caminho mais curto através da rede, para rotear uma mensagem com rapidez. Ou pode ser que alguém 
que deseje viajar de carro de Nova York a Boston queira encontrar instruções em um site Web adequado ou usar 
seu GPS durante o percurso. 


Nem todo problema resolvido por algoritmos tem um conjunto de soluções candidatas fáceis de identificar. Por 


exemplo, suponha que temos um conjunto de valores numéricos que representam amostras de um sinal e que queremos 
calcular a transformada discreta de Fourier dessas amostras. A transformada discreta de Fourier converte o domínio do 
tempo para o domínio da frequência, produzindo um conjunto de coeficientes numéricos, de modo que podemos 
determinar a força de várias frequências no sinal amostrado. Além de estarem no cerne do processamento de sinais, as 
transformadas discretas de Fourier também se aplicam à compressão de dados e à multiplicação de grandes polinômios 
e inteiros. O Capítulo 30 apresenta um algoritmo eficiente para esse problema, a transformada rápida de Fourier 
(comumente denominada FFT), e também apresenta o esquema de projeto de um circuito de hardware para calcular a 
FFT. 


Estruturas de dados 


Este livro também contém várias estruturas de dados. Uma estrutura de dados é um modo de armazenar e 
organizar dados com o objetivo de facilitar acesso e modificações. Nenhuma estrutura de dados única funciona bem 
para todas as finalidades e, por isso, é importante conhecer os pontos fortes e as limitações de várias delas. 


Técnica 


Embora você possa usar este livro como um “livro de receitas” para algoritmos, é possível que algum dia encontre 
um problema cujo algoritmo publicado (muitos dos exercícios e problemas deste livro, por exemplo) não consiga achar 
imediatiamente. Este livro lhe ensinará técnicas de projeto e análise de algoritmos para que você possa desenvolver 
algoritmos por conta própria, mostrar que eles fornecem a resposta correta e entender sua eficiência. 

Capítulos diferentes abordam aspectos diferentes da solução de problemas de algoritmos. Alguns abordam 
problemas específicos, como determinar medianas e ordenar dados estatísticos, no Capítulo 9, calcular árvores 
geradoras (spanning trees) mínimas, no Capítulo 23, e determinar um fluxo máximo em uma rede, no Capítulo 26. 
Outros capítulos abordam técnicas como a de divisão e conquista, no Capítulo 4, programação dinâmica, no Capítulo 
15, e análise amortizada, no Capítulo 177. 


Problemas difíceis 


A maior parte deste livro trata de algoritmos eficientes. Nossa medida habitual de eficiência é a velocidade, isto é, 
quanto tempo um algoritmo demora para produzir seu resultado. Porém, existem alguns problemas para os quais não se 
conhece nenhuma solução eficiente. O Capítulo 34 estuda um subconjunto interessante desses problemas, conhecidos 
como NP-completos. 

Por que os problemas NP-completos são interessantes? Em primeiro lugar, embora nenhum algoritmo eficiente 
para um problema NP-completo tenha sido encontrado até agora, ninguém jamais provou que não é possível existir um 
algoritmo eficiente para tal problema. Em outras palavras, ninguém sabe se existem ou não algoritmos eficientes para 
problemas NP-completos. Em segundo lugar, o conjunto de problemas NP-completos tem a propriedade notável de 
que, se existir um algoritmo eficiente para qualquer um deles, então existem algoritmos eficientes para todos eles. Essa 
relação entre os problemas NP-completos torna a falta de soluções eficientes ainda mais torturante. Em terceiro lugar, 
vários problemas NP-completos são semelhantes mas não idênticos a problemas para os quais sabemos existir 
algoritmos eficientes. Cientistas da computação ficam intrigados com o fato de que uma pequena mudança no enunciado 
do problema pode provocar uma grande alteração na eficiência do melhor algoritmo conhecido. 

É bom que você conheça os problemas NP-completos porque alguns deles surgem com frequência surpreendente 
em aplicações reais. Se você tiver de produzir um algoritmo eficiente para um problema NP-completo, é provável que 
perca muito tempo em uma busca infrutífera. Por outro lado, se você conseguir mostrar que o problema é NP- 
completo, poderá dedicar seu tempo ao desenvolvimento de um algoritmo eficiente que ofereça uma solução boa, 
embora não a melhor possível. 

Como exemplo concreto, considere uma empresa transportadora que tenha um depósito central. Todo dia, cada 
caminhão é carregado no depósito e enviado a diversos locais para fazer entregas. No final do dia, cada caminhão tem 
de estar de volta ao depósito para ser preparado para a carga no dia seguinte. Para reduzir custos, a empresa quer 
selecionar uma ordem de pontos de entrega que represente a menor distância total a ser percorrida por cada caminhão. 
Esse problema é o famoso “problema do caixeiro-viajante”, e é NP-completo — não tem nenhum algoritmo eficiente 
conhecido. Contudo, adotando-se certas premissas, há algoritmos eficientes que fornecem uma distância total não muito 
acima da menor possível. O Capítulo 35 discute esses “algoritmos de aproximação”. 


Paralelismo 


Durante muitos anos pudemos contar com uma taxa regular de aumento da velocidade de relógio dos 
processadores. Porém, limitações fisicas representam um entrave findamental ao crescimento constante dessas 


velocidades: como a densidade de potência aumenta superlinearmente com a velocidade de relógio, existe o risco de 
derretimento dos chips quando essas velocidades atingem um certo nível. Portanto, para executar mais cálculos por 
segundo, o projeto moderno de chips prevê não apenas um, mas vários “núcleos” de processamento. Podemos 
comparar esses computadores com vários núcleos a vários computadores sequenciais em um único chip; em outras 
palavras, eles são um tipo de “computador paralelo”. Para obter o melhor desempenho desses processadores com 
vários núcleos, precisamos produzir algoritmos que considerem o paralelismo. O Capítulo 27 apresenta um modelo de 
algoritmo “multithread” que tira proveito de núcleos múltiplos. Do ponto de vista teórico, esse modelo é vantajoso e 
constitui a base de vários modelos eficientes de programas de computador, entre eles um programa para campeonatos 
de xadrez. 


Exercícios 

1.1-1 Cite um exemplo real que exija ordenação ou um exemplo real que exija o cálculo de uma envoltória convexa. 
1.1-2 Além da velocidade, que outras medidas de eficiência poderiam ser usadas em uma configuração real? 

1.1-3 Selecione uma estrutura de dados que você já tenha visto antes e discuta seus pontos fortes e suas limitações. 


1.1-4 Emque aspectos os problemas anteriores do caminho mais curto e do caixeiro-viajante são semelhantes? Em 
que aspectos eles são diferentes? 


1.1-5 Mostre um problema real no qual apenas a melhor solução servirá. Em seguida, apresente um problema em 
que baste uma solução que seja “aproximadamente” a melhor. 


1.2 ALGORITMOS COMO TECNOLOGIA 


Suponha que os computadores fossem infinitamente rápidos e que a memória do computador fosse gratuita. Você 
teria alguma razão para estudar algoritmos? A resposta é sim, ainda que apenas porque você gostaria de demonstrar 
que seu método de solução termina, e o faz com a resposta correta. 

Se os computadores fossem infinitamente rápidos, qualquer método correto para resolver um problema serviria. É 
provável que você quisesse que sua implementação estivesse dentro dos limites da boa prática de engenharia de 
software (isto é, que ela fosse bem documentada e projetada) mas, na maior parte das vezes, você utilizaria o método 
que fosse mais fácil de implementar. 

É claro que os computadores podem ser rápidos, mas eles não são infinitamente rápidos. A memória pode ser de 
baixo custo, mas não é gratuíta. Assim, o tempo de computação é um recurso limitado, bem como o espaço na 
memória. Esses recursos devem ser usados com sensatez, e algoritmos eficientes em termos de tempo ou espaço o 
ajudarão a usá-los assim. 


Eficiência 


Algoritmos diferentes criados para resolver o mesmo problema muitas vezes são muito diferentes em termos de 
eficiência. Essas diferenças podem ser muito mais significativas que as diferenças relativas a hardware e software. 

Como exemplo, no Capítulo 2 estudaremos dois algoritmos de ordenação. O primeiro, conhecido como 
ordenação por inserção, leva um tempo aproximadamente igual a c,n ? para ordenar n itens, onde c, é uma constante 
que não depende de n. Isto é, ele demora um tempo aproximadamente proporcional a n,. O segundo, de ordenação 
por intercalação, leva um tempo aproximadamente igual a c,n lg n, onde Ig n representa log? n e c, é outra constante 
que também não depende de n. A ordenação por inserção normalmente tem um fator constante menor que a ordenação 


por intercalação; assim, c, < c,. Veremos que os fatores constantes podem causar um impacto muito menor sobre o 
tempo de execução que a dependência do tamanho da entrada n. Se representarmos o tempo de execução da 
ordenação por inserção por cn - n e o tempo de execução da ordenação por intercalação por c;n - lg n, veremos 
que, enquanto o fator do tempo de execução da ordenação por inserção é n, o da ordenação por intercalação é lg n, 
que é muito menor (por exemplo, quando n = 1.000, lg n é aproximadamente 10 e quando n é igual a um milhão, lg n é, 
aproximadamente, só 20). Embora a ordenação por inserção em geral seja mais rápida que a ordenação por 
intercalação para pequenos tamanhos de entradas, tão logo o tamanho da entrada n se torne grande o suficiente a 
vantagem da ordenação por intercalação de lg n contra n compensará com sobras a diferença em fatores constantes. 
Independentemente do quanto c, seja menor que c,, sempre haverá um ponto de corte além do qual a ordenação por 
intercalação será mais rápida. 

Como exemplo concreto, vamos comparar um computador mais rápido (computador A) que executa a ordenação 
por inserção com um computador mais lento (computador B) que executa a ordenação por mntercalação. Cada um deve 
ordenar um arranjo de dez milhões de números. (Embora 10 milhões de números possa parecer muito, se os números 
forem inteiros de oito bytes, a entrada ocupará cerca de 80 megabytes e caberá com grande folga até mesmo na 
memória de um laptop barato.) Suponha que o computador A execute dez bilhões de instruções por segundo (mais 
rapidamente do que qualquer computador sequencial existente na época da redação deste livro) e que o computador B 
execute apenas dez milhões de instruções por segundo; assim, o computador A será 1.000 vezes mais rápido que o 
computador B em capacidade bruta de computação. Para tornar a diferença ainda mais drástica, suponha que o 
programador mais astucioso do mundo codifique a ordenação por inserção em linguagem de máquina para o 
computador A e que o código resultante exija 2n, instruçõespara ordenar n números. Suponha ainda que um 
programador médio implemente a ordenação por intercalação utilizando uma linguagem de alto nível com um 
compilador ineficiente, sendo que o código resultante totaliza 50n lg n instruções. Para ordenar 10 milhões de números, 
o computador A leva 


2-(10) instruções 
10º instruções /segundo 


= 20.000 segundos (mais de 5,5 horas); 


por outro lado, o computador B leva 


50-10” 1g 10” instruções 


x 1163 segundos (menos de 20 minutos). 
10” instruções/segundo 


Usando um algoritmo cujo tempo de execução cresce mais lentamente, até mesmo com um compilador fraco, o 
computador B funciona mais de 17 vezes mais rapidamente que o computador A! A vantagem da ordenação por 
intercalação é ainda mais evidente quando ordenamos 100 milhões de números: onde a ordenação por inserção demora 
mais de 23 dias, a ordenação por intercalação demora menos de quatro horas. Em geral, à medida que o tamanho do 
problema aumenta, também aumenta a vantagem relativa da ordenação por intercalação. 


Algoritmos e outras tecnologias 


O exemplo anterior mostra que os algoritmos, como o hardware de computadores, devem ser considerados como 
uma tecnologia. O desempenho total do sistema depende da escolha de algoritmos eficientes tanto quanto da escolha 
de hardware rápido. Os rápidos avanços que estão ocorrendo em outras tecnologias computacionais também estão 
sendo observados em algoritmos. Você poderia questionar se os algoritmos são verdadeiramente tão importantes para 
os computadores contemporâneos levando em consideração outras tecnologias avançadas, como: 


* arquiteturas computacionais e tecnologias de fabricação avançadas; 
* interfaces gráficas de usuário (GUIs) intuitivas e fáceis de usar; 
* sistemas orientados a objetos; 


* tecnologias mtegradas da Web e 
* redes de alta velocidade, com fio e sem fio. 


A resposta é: sim. Embora algumas aplicações não exijam explicitamente conteúdo algorítmico no nível da 
aplicação (como algumas aplicações simples baseadas na Web), a maioria exige. Por exemplo, considere um serviço da 
Web que determina como viajar de um local para outro. Sua implementação dependeria de hardware rápido, de uma 
interface gráfica de usuário, de redes remotas, além de, possivelmente, orientação a objetos. Contudo, também exigiria 
algoritmos para certas operações, como descobrir rotas (talvez empregando um algoritmo de caminho mais curto), 
apresentar mapas e interpolar endereços. 

Além disso, até mesmo uma aplicação que não exija conteúdo algorítmico no nível da aplicação depende muito de 
algoritmos. A aplicação depende de hardware rápido? O projeto de hardware utilizou algoritmos. A aplicação depende 
de interfaces gráficas de usuário? O projeto de qualquer GUI depende de algoritmos. A aplicação depende de rede? O 
roteamento em redes depende muito de algoritmos. A aplicação foi escrita em uma linguagem diferente do código de 
máquina? Então, ela foi processada por um compilador, um interpretador ou um montador, e todos fazem uso extensivo 
de algoritmos. Os algoritmos estão no núcleo da maioria das tecnologias usadas em computadores contemporâneos. 

Além disso, com a capacidade cada vez maior dos computadores, nós os utilizamos mais do que nunca para 
resolver problemas cada vez maiores. Como vimos na comparação anterior entre ordenação por inserção e ordenação 
por intercalação, é nos problemas maiores que as diferenças entre a eficiência dos algoritmos se tornam particularmente 
notáveis. 

Uma sólida base de conhecimento e técnica de algoritmos é uma das características que separam os 
programadores verdadeiramente qualificados dos novatos. Com a moderna tecnologia de computação, você pode 
executar algumas tarefas sem saber muito sobre algoritmos; porém, com uma boa base em algoritmos, é possível fazer 
muito, muito mais. 


Exercícios 


1.2-1 Cite um exemplo de aplicação que exige conteúdo aleorítmico no nível da aplicação e discuta a função dos 
algoritmos envolvidos. 


1.2-2 Suponha que estamos comparando implementações de ordenação por inserção e ordenação por intercalação 
na mesma máquina. Para entradas de tamanho n, a ordenação por inserção é executada em 8n, passos, 
enquanto a ordenação por intercalação é executada em 64n lg n passos. Para quais valores de n a ordenação 
por inserção supera a ordenação por intercalação? 


1.2-3 Qualé o menor valor de n tal que um algoritmo cujo tempo de execução é 100n, funciona mais rapidamente 
que um algoritmo cujo tempo de execução é 2, na mesma máquina? 


Problemas 


11 Comparação entre tempos de execução 


Para cada função f(n) e cada tempo t na tabela a seguir, determine o maior tamanho n de um problema que 
pode ser resolvido no tempo t, considerando que o algoritmo para resolver o problema demore f(n) 
microssegundos. 


NorTas DO CAPÍTULO 


Existem muitos textos excelentes sobre o tópico geral de algoritmos, entre eles os de Aho, Hopcroft e Ullman [5, 
6]; Baase e Van Gelder [28]; Brassard e Bratley [54]; Dasgupta, Papadimítriou e Vazirani [82]; Goodrich e Tamassia 
[148]; Hofri [175]; Horowitz, Sahni e Rajasekaran [181]; Johnsonbaugh e Schaefer [193]; Kingston [205]; Kleinberg e 
Tardos [208]; Knuth [209, 210, 211]; Kozen [220]; Levitm [235]; Manber [242]; Mehlhorn [249, 250, 251]; Purdom 
e Brown [287]; Reingold, Nievergelt e Deo [293]; Sedgewick [306]; Sedgewick e Flajolet [307]; Skiena [318] e Wilf 
[356]. Alguns dos aspectos mais práticos do projeto de algoritmos são discutidos por Bentley [42, 43] e Gomnet [145]. 
Pesquisas na área de algoritmos também podem ser encontradas no Handbook of Theoretical Computer Science, 
Volume A [342] e no CRC Algorithms and Theory of Computation Handbook [25]. Avaliações de algoritmos 
usados em biologia computacional podem ser encontrados nos livros didáticos de Gusfield [156], Pevzmer [275], 
Setubal e Meidanis [310] e Waterman [350]. 


DANDOA PARTIDA 


Este capítulo tem o objetivo de familiarizá-lo com a estrutura que usaremos em todo o livro para refletir sobre o 
projeto e a análise de algoritmos. Ele é autônomo, mas inclui diversas referências ao material que será apresentado nos 
Capítulos 3 e 4 (e também contém diversos somatórios, que o Apêndice A mostra como resolver). 

Começaremos examinando o algoritmo de ordenação por inserção para resolver o problema de ordenação 
apresentado no Capítulo 1. Definiremos um “pseudocódigo” que deverá ser familiar aos leitores que tenham estudado 
programação de computadores, e o empregaremos com a finalidade de mostrar como serão especificados nossos 
algoritmos. Tendo especificado o algoritmo de ordenação por inserção, demonstraremos que ele efetua a ordenação 
corretamente e analisaremos seu tempo de execução. A análise introduzirá uma notação que focaliza o modo como o 
tempo aumenta com o número de itens a ordenar. Seguindo nossa discussão da ordenação por inserção, introduziremos 
a abordagem de divisão e conquista para o projeto de algoritmos e a utilizaremos para desenvolver um algoritmo 
denominado ordenação por intercalação. Terminaremos com uma análise do tempo de execução da ordenação por 
intercalação. 


2.1 (ORDENAÇÃO POR INSERÇÃO 


Nosso primeiro algoritmo, o de ordenação por inserção, resolve o problema de ordenação apresentado no 
Capítulo 1: 


Entrada: Uma sequência de n números (ar, a», ..., an). 
Saída: Uma permutação (reordenação) (a", a”,..., a") da sequência de entrada, tal que q1<a<...< ar. 


Os números que desejamos ordenar também são conhecidos como chaves. Embora conceitualmente estejamos 
ordenando uma sequência, a entrada é dada na forma de um arranjo com n elementos. 

Neste livro, descreveremos tipicamente algoritmos como programas escritos em um pseudocódigo semelhante em 
vários aspectos a C, C++, Java, Python ou Pascal. Se você já conhece qualquer dessas linguagens, deverá ter pouca 
dificuldade para ler nossos algoritmos. O que distingue o pseudocódigo do código “reaP” é que, no pseudocódigo, 
empregamos qualquer método expressivo que seja mais claro e conciso para especificar um dado algoritmo. Às vezes, 
o método mais claro é a linguagem comum; assim, não se surpreenda se encontrar uma frase ou sentença em nosso 
idioma (ou em inglês) embutida em uma seção de código “real”. Outra diferença entre o pseudocódigo e o código real é 
que o pseudocódigo em geral não se preocupa com questões de engenharia de software. As questões de abstração de 
dados, modularidade e tratamento de erros são frequentemente ignoradas, de modo a transmitir a essência do algoritmo 
de modo mais conciso. 


| 


| 


Figura 2.1 Ordenando cartas como uso da ordenação por inserção. 


Começaremos com a ordenação por inserção, um algoritmo eficiente para ordenar um número pequeno de 
elementos. A ordenação por inserção funciona da maneira como muitas pessoas ordenam as cartas em um jogo de 
baralho. Iniciamos com a mão esquerda vazia e as cartas viradas para baixo, na mesa. Em seguida, retiramos uma carta 
de cada vez da mesa e a inserimos na posição correta na mão esquerda. Para encontrar a posição correta para uma 
carta, nós a comparamos com cada uma das cartas que já estão na mão, da direita para a esquerda, como ilustra a 
Figura 2.1. Em todas as vezes, as cartas que seguramos na mão esquerda são ordenadas, e essas cartas eram as que 
estavam na parte superior da pilha sobre a mesa. 

Nosso pseudocódigo para ordenação por inserção é apresentado como um procedimento denominado Insertion- 
Sort, que toma como parâmetro um arranjo A[1 .. n] contendo uma sequência de comprimento n que deverá ser 
ordenada. (No código, o número n de elementos em 4 é denotado por 4: comprimento.) O algoritmo ordena os 
números da entrada no lugar: reorganiza os números dentro do arranjo 4, com no máximo um número constante deles 
armazenado fora do arranjo em qualquer instante. O arranjo de entrada 4 conterá a sequência de saída ordenada 
quando Insertion-Sort terminar. 


INSERTION-SORT(A) 

1 forj=2to A-comprimento 

2 chave = A[j] 

3 // Inserir A[j] na sequência ordenada A[1..j — 1]. 
4 i=j-1 

5 while i > 0 e A[i] > chave 
6 Ali + 1] = Ali] 
7 i=i—-1 

8 Afi + 1] = chave 


Invariantes de laço e a correção da ordenação por inserção 


A Figura 2.2 mostra como esse algoritmo funciona para 4 =(5, 2, 4, 6, 1, 3). O índice j indica a “carta atual” que 
está sendo inserida na mão. No início de cada iteração do laço for, indexado por j, o subarranjo que consiste nos 
elementos A[1 ..j — 1] constitui a mão ordenada atualmente e o subconjunto remanescente 4[j + 1... n] corresponde à 
pilha de cartas que ainda está sobre a mesa. Na verdade, os elementos 4[1 ..j — 1] são os que estavam originalmente 
nas posições 1 aj — 1, mas agora em sequência ordenada. Afirmamos essas propriedades de 4[1 ..; — 1] formalmente 
como um de invariante de laço: 


l 2 3 4 5 6 l 2 Do dA 5 6 l 2 3 4 5 6 
a [6[1[3 (b) E el (o) |2 ego 
l 2 3 4 5 6 l 2 do de SD 16 l 2 3 4 5 6 
DE (e) PE (0 |1/2)3/4]5]6 
KR 


Figura 2.2 A operação de Inserton-Sort sobre o arranjo 4 =((5, 2,4, 6, 1, 3). Os índices do arranjo aparecem acima dos retângulos, e os 
valores armazenados nas posições do arranjo aparecem dentro dos retângulos. (a)-(e) Iterações do laço for das linhas 1 a 8. Em cada 
iteração, o retângulo preto contéma chave obtida de Al; ], que é comparada comos valores contidos nos retângulos sombreados à sua 
esquerda, no teste da linha 5. Setas sombreadas mostramos valores do arranjo deslocados uma posição para a direita na linha 6, e setas 
pretas indicam para onde a chave é deslocada na linha 8. (f) O arranjo ordenado final. 


No início de cada iteração para o laço for das linhas 1-8, o subarranjo A[1 ..j — 1] consiste nos elementos que 
estavam originalmente em 4[1 ..j — 1], porém em sequência ordenada. 


Usamos invariantes de laço para nos ajudar a entender por que um algoritmo é correto. Devemos mostrar três 
detalhes sobre um invariante de laço: 
Inicialização: Ele é verdadeiro antes da primeira iteração do laço. 


Manutenção: Se ele for verdadeiro antes de uma iteração do laço, permanecerá verdadeiro antes da próxima 
iteração. 

Término: Quando o laço termma, o invariante nos fornece uma propriedade útil que ajuda a mostrar que o 
algoritmo é correto. 


Quando as duas primeiras propriedades são válidas, o invariante de laço é verdadeiro antes de toda iteração do 
laço. (É claro que temos a liberdade de usar fatos confirmados além do invariante de laço em si para provar que ele 
permanece verdadeiro antes de cada iteração.) Observe a semelhança com a indução; nesta, para provar que uma 


propriedade é válida, provamos uma base e um passo de indução. Aqui, mostrar que o invariante é válido antes da 
primeira iteração equivale à base, e mostrar que o invariante é válido de uma iteração para outra equivale ao passo. 

A terceira propriedade talvez seja a mais importante, visto que estamos usando o invariante de laço para mostrar a 
correção. Normalmente, usamos o invariante de laço juntamente com a condição que provocou o término do laço. O 
modo de utilização da propriedade de término é diferente do modo de utilização da indução: nesta, a etapa indutiva é 
aplicada indefinidamente; aqui, paramos a “indução” quando o laço termina. 

Vamos ver como essas propriedades são válidas para ordenação por inserção: 


Inicialização: Começamos mostrando que o invariante de laço é válido antes da primeira iteração do laço, quando 
j=2. Então, o subarranjo A[1 ..j — 1] consiste apenas no único elemento 4[1], que é de fato o elemento 
original em 4[1]. Além disso, esse subarranjo é ordenado (trivialmente, é claro), e isso mostra que o invariante 
de laço é válido antes da primeira iteração do laço. 


Manutenção: Em seguida, abordamos a segunda propriedade: mostrar que cada iteração mantém o invariante de 
laço. Informalmente, o corpo do laço for funciona deslocando A[ j — 1], A[j — 2], A[j — 3], e assim por diante, 
uma posição para a direita até encontrar a posição adequada para A[;] (linhas 4 a 7); nesse ponto ele insere o 
valor de 4[;] (linha 8). Então, o subarranjo A[1 .. ;] consiste nos elementos presentes originalmente em A[1.. ;], 
mas em sequência ordenada. Portanto, incrementar j para a próxima iteração do laço for preserva o invariante 
de laço. 


Um tratamento mais formal da segunda propriedade nos obrigaria a estabelecer e mostrar um invariante para o laço 
while das linhas 5-7. Porém, nesse momento, preferimos não nos prender a tal formalismo, e assim contamos com 
nossa análise informal para mostrar que a segunda propriedade é válida para o laço externo. 


Término: Finalmente, examinamos o que ocorre quando o laço termina. A condição que provoca o término do 
laço for é que j; > A-comprimento = n. Como cada iteração do laço aumenta ; de 1, devemos ter j = n + 1 nesse 
instante. Substituindo j por n + 1 no enunciado do invariante de laço, temos que o subarranjo 4[1 .. n] consiste nos 
elementos originalmente contidos em 4[1 .. n], mas em sequência ordenada. Observando que o subarranjo 4[1 ..n]é o 
arranjo inteiro, concluímos que o arranjo inteiro está ordenado. Portanto o algoritmo está correto. 


Empregaremos esse método de invariantes de laço para mostrar a correção mais adiante neste capítulo e também 
em outros capítulos. 


Convenções de pseudocódigo 


Utilizaremos as convenções a seguir em nosso pseudocódigo. 

*- O recuo indica estrutura de bloco. Por exemplo, o corpo do laço for que começa na linha 1 consiste nas linhas 2 a 
8, e o corpo do laço while que começa na linha 5 contém as linhas 6 e 7, mas não a linha 8. Nosso estilo de recuo 
também se aplica a instruções if-else.> O uso de recuo em vez de indicadores convencionais de estrutura de bloco, 
como instruções begin e end, reduz bastante a confusão, ao mesmo tempo que preserva ou até mesmo aumenta a 
clareza. 

* As interpretações das construções de laço while, for e repeat-until e das construções condicionais if-else são 
semelhantes às das linguagens C, C-, Java, Python e Pascal: Neste livro, o contador do laço mantém seu valor 
após sair do laço, ao contrário de algumas situações que surgem em C-+, Java e Pascal. Desse modo, logo depois 
de um laço for, o valor do contador de laço é o valor que primeiro excedeu o limite do laço for. Usamos essa 
propriedade em nosso argumento de correção para a ordenação por inserção. O cabeçalho do laço for na linha 1 
é for; = 2 to 4-comprimento e, assim, quando esse laço termina, ; = 4-comprimento + 1 (ou, o que é 
equivalente, ; = n + 1, visto que n = A -comprimento). 

Usamos a palavra-chave to quando um laço for incrementa seu contador do laço a cada iteração, e usamos a 
palavra-chave downto quando um laço for decrementa seu contador de laço. Quando o contador do laço mudar 


por uma quantidade maior do que 1, essa quantidade virá após a palavra-chave opcional by. 

* O símbolo “//” indica que o restante da linha é um comentário. 

* Uma atribuição múltipla da forma i =; = e atribui às variáveis i e j o valor da expressão e; ela deve ser tratada 
como equivalente à atribuição j = e seguida pela atribuição i = j. 

* Variáveis (como i, j e chave) são locais para o procedimento dado. Não usaremos variáveis globais sem indicação 
explícita. 

* Elementos de arranjos são acessados especificando-se o nome do arranjo seguido pelo índice entre colchetes. Por 
exemplo, A[i] indica o i-ésimo elemento do arranjo 4. A notação “..” é usada para indicar uma faixa de valores 
dentro de um arranjo. Desse modo, 4[1 .. ;] indica o subarranjo de 4 que consiste nos j elementos 4[1], 4[2], ..., 
AU]. 

* Dados compostos estão organizados tipicamente em objetos, compostos por atributos. Acessamos um 
determinado atributo usando a sintaxe encontrada em muitas linguagens de programação orientadas a objetos: o 
nome do objeto, seguido por um ponto, seguido pelo nome do atributo. Por exemplo, tratamos um arranjo como 
um objeto com o atributo comprimento indicando quantos elementos ele contém. Para especificar o número de 
elementos em um arranjo 4, escrevemos 4 :comprimento. 


Uma variável que representa um arranjo ou objeto é tratada como um ponteiro para os dados que representam o 
arranjo ou objeto. Para todos os atributos f de um objeto x, definir y = x causa y:f = x-f. Além disso, se definirmos 
agora x:f = 3, daí em diante não apenas x -f = 3, mas também y-f = 3. Em outras palavras, x e y apontarão para o 
mesmo objeto após a atribuição y = x. 

A notação que usamos para atributos pode ser utilizada “em cascata”. Por exemplo, suponha que o atributo f seja, 
em si, um ponteiro para algum tipo de objeto que tem um atributo g. Então, a notação x -f- g estará implicitamente entre 
parênteses como (x :-/),g. Em outras palavras, se tivéssemos atribuído y = x -f, então x -f" g é o mesmo que y:g. 

Às vezes, um ponteiro não fará referência a nenhum objeto. Nesse caso, daremos a ele o valor especial NIL. 


* Parâmetros são passados para um procedimento por valor : o procedimento chamado recebe sua própria cópia 
dos parâmetros e, se tal procedimento atribuir um valor a um parâmetro, a mudança não será vista pelo 
procedimento de chamada. Quando objetos são passados, o ponteiro para os dados que representam o objeto é 
copiado, mas os atributos do objeto, não. Por exemplo, se x é um parâmetro de um procedimento chamado, a 
atribuição x = y dentro do procedimento chamado não será visível para o procedimento de chamada. 

Contudo, a atribuição x -f = 3 será visível De maneira semelhante, arranjos são passados por apontador; assim, 
um apontador para o arranjo é passado, em vez do arranjo inteiro, e as mudanças nos elementos individuais do 
arranjo são visíveis para o procedimento de chamada. 

* Uma instrução retum transfere imediatamente o controle de volta ao ponto de chamada no procedimento de 
chamada. A maioria das instruções retum também toma um valor para passar de volta ao chamador. Nosso 
pseudocódigo é diferente de muitas linguagens de programação, visto que permite que vários valores sejam 
devolvidos em uma única instrução retum. 

* Os operadores booleanos “e” e “ou” são operadores com curto-circuito. Isto é, quando avaliamos a expressão 
“x ey”, avaliamos primeiro x. Se x for avaliado como FALSE, a expressão inteira não poderá ser avaliada como 
TRUE, e assim não avaliamos y. Se, por outro lado, x for avaliado como TRUE, teremos de avaliar y para 
determinar o valor da expressão inteira. De modo semelhante, na expressão “x ou y”, avaliamos a expressão y 
somente se x for avaliado como FALSE. Os operadores de curto-circuito nos permitem escrever expressões 
booleanas como “x + NILe x:f= y” semnos preocuparmos com o que acontece ao 
tentarmos avaliar x -f quando x é NIL. 

* Apalavra-chave error indica que ocorreu um erro porque as condições para que o procedimento fosse chamado 
estavam erradas. O procedimento de chamada é responsável pelo tratamento do erro, portanto não especificamos 
a ação que deve ser executada. 


Exercícios 


2.1-1 Usando a Figura 2.2 como modelo, ilustre a operação de Insertion-Sort no arranjo 4 = (31, 41, 59, 26, 41, 
58). 


2.1-2 Reescreva o procedimento Insertion-Sort para ordenar em ordem não crescente, em vez da ordem não 
decrescente. 


2.1-3 Considere o problema de busca: 
Entrada: Uma sequência de n números 4 = ai, a», ..., a) e um valor v. 
Saída: Um índice i tal que v = A[i] ou o valor especial NIL, se v não aparecer em 4. 


Escreva o pseudocódigo para busca linear, que faça a varredura da sequência, procurando por v. Usando 
um invariante de laço, prove que seu algoritmo é correto. Certifique-se de que seu invariante de laço satisfaz 
as três propriedades necessárias. 


2.1-4 Considere o problema de somar dois inteiros binários de n bits, armazenados em dois arranjos de n elementos 
A e B. A soma dos dois inteiros deve ser armazenada em forma binária em um arranjo de (n + 1) elementos 
C. Enuncie o problema formalmente e escreva o pseudocódigo para somar os dois inteiros. 


2.2 ANÁLISE DE ALGORITMOS 


Analisar um algoritmo significa prever os recursos de que o algoritmo necessita. Ocasionalmente, recursos como 
memória, largura de banda de comunicação ou hardware de computador são a principal preocupação, porém mais 
frequentemente é o tempo de computação que desejamos medir. Em geral, pela análise de vários algoritmos candidatos 
para um problema, pode-se identificar facilmente um que seja o mais eficiente. Essa análise pode indicar mais de um 
candidato viável, porém, em geral, podemos descartar vários algoritmos de qualidade inferior no processo. 

Antes de podermos analisar um algoritmo, devemos ter um modelo da tecnologia de implementação que será 
usada, inclusive um modelo para os recursos dessa tecnologia e seus custos. Na maior parte deste livro, consideraremos 
um modelo de computação genérico de máquina de acesso aleatório (random-access machine, RAM) com um único 
processador como nossa tecnologia de implementação e entenderemos que nossos algoritmos serão implementados 
como programas de computador. No modelo de RAM, as instruções são executadas uma após outra, sem operações 
concorrentes. 

No sentido estrito, deveríamos definir com precisão as instruções do modelo de RAM e seus custos. Porém, isso 
seria tedioso e nos daria pouca percepção do projeto e da análise de algoritmos. Não obstante, devemos ter cuidado 
para não abusar do modelo de RAM. Por exemplo, e se uma RAM tivesse uma instrução de ordenação? Então, 
poderíamos ordenar com apenas uma instrução. Tal RAM seria irreal, visto que os computadores reais não têm tais 
instruções. Portanto, nosso guia é o modo como os computadores reais são projetados. O modelo de RAM contém 
instruções comumente encontradas em computadores reais: instruções aritméticas (como soma, subtração, 
multiplicação, divisão, resto, piso, teto), de movimentação de dados (carregar, armazenar, copiar) e de controle (desvio 
condicional e incondicional, chamada e retorno de sub-rotinas). Cada uma dessas instruções demora uma quantidade de 
tempo constante. 

Os tipos de dados no modelo de RAM são inteiros e de ponto flutuante (para armazenar números reais). Embora 
normalmente não nos preocupemos com a precisão neste livro, em algumas aplicações a precisão é crucial. Também 
consideramos um limite para o tamanho de cada palavra de dados. Por exemplo, ao trabalharmos com entradas de 
tamanho n, em geral consideramos que os inteiros são representados por c lg n bits para alguma constante c > 1. 


Exigimos c > 1 para que cada palavra possa conter o valor de n, o que nos permite indexar os elementos individuais da 
entrada, e c terá de ser obrigatoriamente uma constante para que o tamanho da palavra não cresça arbitrariamente. (Se 
o tamanho da palavra pudesse crescer arbitrariamente, seria possível armazenar enorme quantidade de dados em uma 
única palavra e executar operações com tudo isso em tempo constante — claramente um cenário irreal.) 

Computadores reais contêm instruções que não citamos, e tais instruções representam uma área cinzenta no 
modelo de RAM. Por exemplo, a exponenciação é uma instrução de tempo constante? No caso geral, não; são 
necessárias várias instruções para calcular x, quando x e y são números reais. Porém, em situações restritas, a 
exponenciação é uma operação de tempo constante. Muitos computadores têm uma instrução “deslocar para a 
esquerda” (shift left) que desloca em tempo constante os bits de um inteiro k posições para a esquerda. Na maioria 
dos computadores, deslocar os bits de um inteiro uma posição para a esquerda equivale a multiplicar por 2; assim, 
deslocar os bits k posições para a esquerda equivale a multiplicar por 2+. Portanto, tais computadores podem calcular 
2, em uma única instrução de tempo constante deslocando o inteiro 1 k posições para a esquerda, desde que k não seja 
maior que o número de bits em uma palavra de computador. Procuraremos evitar essas áreas cinzentas no modelo de 
RAM, mas trataremos o cálculo de 2: como uma operação de tempo constante quando k for um inteiro positivo 
suficientemente pequeno. 

No modelo de RAM, não tentamos modelar a hierarquia da memória que é comum em computadores 
contemporâneos. Isto é, não modelamos caches ou memória virtual. Vários modelos computacionais tentam levar em 
conta os efeitos da hierarquia de memória, que às vezes são significativos em programas reais em máquinas reais. 
Alguns problemas neste livro examinam os efeitos da hierarquia de memória mas, em sua maioria, as análises neste livro 
não os considerarão. 

Os modelos que incluem a hierarquia de memória são bem mais complexos que o modelo de RAM, portanto pode 
ser difícil utilizá-los. Além disso, as análises do modelo de RAM em geral permitem previsões excelentes do 
desempenho em máquinas reais. 

Até mesmo a análise de um algoritmo simples no modelo de RAM pode ser um desafio. As ferramentas 
matemáticas exigidas podem incluir análise combinatória, teoria das probabilidades, destreza em álgebra e a capacidade 
de identificar os termos mais significativos em uma fórmula. Tendo em vista que o comportamento de um algoritmo pode 
ser diferente para cada entrada possível, precisamos de um meio para resumir esse comportamento em fórmulas 
simples, de fácil compreensão. Embora normalmente selecionemos apenas um único modelo de máquina para analisar 
determinado algoritmo, ainda estaremos diante de muitas opções na hora de decidir como expressar nossa análise. 
Gostaríamos de dispor de um meio de expressão que seja simples de escrever e manipular, que mostre as 
características importantes de requisitos de recursos de um algoritmo e que suprima os detalhes tediosos. 


Análise da ordenação por inserção 


O tempo despendido pelo procedimento Insertion-Sort depende da entrada: ordenar mil números demora mais que 
ordenar três números. Além disso, Insertion-Sort pode demorar quantidades de tempo diferentes para ordenar duas 
sequências de entrada do mesmo tamanho, dependendo do quanto elas já estejam ordenadas. Em geral, o tempo gasto 
por um algoritmo cresce com o tamanho da entrada; assim, é tradicional descrever o tempo de execução de um 
programa em função do tamanho de sua entrada. Para isso, precisamos definir os termos “tempo de execução” e 
“tamanho da entrada” com mais cuidado. 

A melhor noção para tamanho da entrada depende do problema que está sendo estudado. No caso de muitos 
problemas, como a ordenação ou o cálculo de transformações discretas de Fourier, a medida mais natural é o número 
de itens na entrada — por exemplo, o tamanho n do arranjo para ordenação. Para muitos outros problemas, como a 
multiplicação de dois inteiros, a melhor medida do tamanho da entrada é o número total de bits necessários para 
representar a entrada em notação binária comum. Às vezes, é mais apropriado descrever o tamanho da entrada com 
dois números em vez de um. Por exemplo, se a entrada para um algoritmo é um grafo, o tamanho da entrada pode ser 
descrito pelos números de vértices e arestas no grafo. Indicaremos qual medida de tamanho da entrada está sendo 
usada com cada problema que estudarmos. 


a 


O tempo de execução de um algoritmo em determinada entrada é o número de operações primitivas ou “passos” 
executados. É conveniente definir a noção de passo de modo que ela seja tão independente de máquina quanto 
possível. Por enquanto, vamos adotar a visão a seguir. Uma quantidade de tempo constante é exigida para executar 
cada linha do nosso pseudo código. Uma linha pode demorar uma quantidade de tempo diferente de outra linha, mas 
consideraremos que cada execução da i-ésima Inha leva um tempo ci, onde c; é uma constante. Esse ponto de vista está 
de acordo com o modelo de RAM e também reflete o modo como o pseudo-código seria implementado na maioria dos 
computadores reais.s 

Na discussão a seguir, nossa expressão para o tempo de execução de Insertion-Sort evoluirá de uma fórmula 
confusa que utiliza todos os custos de instrução c; até uma notação muito mais simples, que também é mais concisa e 
mais fácil de manipular. Essa notação mais simples também facilitará a tarefa de determinar se um algoritmo é mais 
eficiente que outro. 

Começaremos apresentando o procedimento Insertion-Sort com o “custo” de tempo de cada instrução e o número 
de vezes que cada instrução é executada. Para cada j = 2, 3, ..., n, onde n = A -comprimento, seja t; o número de 
vezes que o teste do laço while na linha 5 é executado para aquele valor de j. Quando um laço for ou while termmna da 
maneira usual (isto é, devido ao teste no cabeçalho do laço), o teste é executado uma vez mais do que o corpo do laço. 
Consideramos que comentários não são instruções executáveis e, portanto, não demandam nenhum tempo. 


INSERTION-SORT(A) custo vezes 
1 forj=2to A-comprimento C, n 
2 chave = Alj] É, n—1 
3 / / Inserir A[j] na sequência 
ordenada A[1..j — 1]. 0 n-—1 
4 i=j-1 C n—1 
5 while i > 0 e Ali] > chave E É sli 
6 Ali+1]= Ati] c, St) 
7 i=i—l E, Daly 1) 
8 Ali + 1] = chave ê n—1 


O tempo de execução do algoritmo é a soma dos tempos de execução para cada instrução executada; uma 
instrução que demanda c; passos para ser executada e é executada n vezes contribuirá com ci para o tempo de 
execução total. Para calcular T(n), o tempo de execução de Insertion-Sort de uma entrada de n valores, somamos os 
produtos das colunas custo e vezes, obtendo 


n 


T(n)= ente(n-D+e(n-D+c) tt) dt —1) 
j=2 


j=2 


n 


PA —D+e(n—1). 
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Mesmo para entradas de dado tamanho, o tempo de execução de um algoritmo pode depender de qual entrada 
desse tamanho é dada. Por exemplo, em Insertion-Sort, o melhor caso ocorre se o arranjo já está ordenado. Então, 
para cada j = 2, 3, ..., n, descobrimos que A[i] < chave na linha 5 quando i tem seu valor inicial; — 1. Portanto, t; = 1 
para; =2,3,...,n, e o tempo de execução do melhor caso é 


Tid=e +eda= Ueda = Deda + an) 
= tora a rent + ta 


Podemos expressar esse tempo de execução como an + b para constantes a e b que dependem dos custos de 
instrução c;; assim, ele é uma função linear de n. 


Se o arranjo estiver ordenado em ordem inversa — ou seja, em ordem decrescente —, resulta o pior caso. 


Devemos comparar cada elemento 4[;] com cada elemento do subarranjo ordenado inteiro, A[1 ..j — 1], e então = 
para 2, 3, ..., n. Observando que 


n . 1 
j= 2 


(o Apêndice A apresenta modos de resolver esses somatórios), descobrimos que, no pior caso, o tempo de execução 
de Insertion-Sort é 


T(n)=en+e(in-D+e(n—-D+c, 
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Podemos expressar esse tempo de execução do pior caso como an> + bn + c para constantes a, b e c que, mais 


uma vez, dependem dos custos de instrução ci; portanto, ele é uma função quadrática de n. 


Em geral, como na ordenação por inserção, o tempo de execução de um algoritmo é fixo para determinada 


entrada, embora em capítulos posteriores veremos alguns algoritmos “aleatorizados” interessantes, cujo comportamento 
pode variar até mesmo para uma entrada fixa. 


Análise do pior caso e do caso médio 


Em nossa análise da ordenação por inserção, examinamos tanto o melhor caso, no qual o arranjo de entrada já 


estava ordenado, quanto o pior caso, no qual o arranjo de entrada estava ordenado em ordem inversa. Porém, no 
restante deste livro, em geral nos concentraremos em determinar apenas o tempo de execução do pior caso; ou seja, 
o tempo de execução mais longo para qualquer entrada de tamanho n. Apresentamos três razões para essa orientação. 


O tempo de execução do pior caso de um algoritmo estabelece um limite superior para o tempo de execução para 
qualquer entrada. Conhecê-lo nos dá uma garantia de que o algoritmo nunca demorará mais do que esse tempo. 
Não precisamos fazer nenhuma suposição sobre o tempo de execução esperando que ele nunca seja muito pior. 
Para alguns algoritmos, o pior caso ocorre com bastante frequência. Por exemplo, na pesquisa de um banco de 
dados em busca de determinada informação, o pior caso do algoritmo de busca frequentemente ocorre quando a 
informação não está presente no banco de dados. Em algumas aplicações, a busca de informações ausentes pode 
ser frequente. 

Muitas vezes, o “caso médio” é quase tão ruim quanto o pior caso. Suponha que escolhemos n números 
aleatoriamente e aplicamos ordenação por inserção. Quanto tempo transcorrerá até que o algoritmo determine o 
lugar no subarranjo A[1 ..j — 1] em que deve ser inserido o elemento A4[;]? Em média, metade dos elementos em 
A[1...j — 1] é menor que A4[;] e metade dos elementos é maior. Portanto, em média, verificamos metade do 


subarranjo 4[1 ..j — 1] e, portanto, t; = j/2. Resulta que o tempo de execução obtido para o caso médio é uma 

função quadrática do tamanho da entrada, exatamente o que ocorre com o tempo de execução do pior caso. 

Em alguns casos particulares, estaremos interessados no tempo de execução do caso médio de um algoritmo; 
veremos, neste livro, a técnica da análise probabilística aplicada a vários algoritmos. O escopo da análise do caso 
médio é limitado porque pode não ser evidente o que constitui uma entrada “média” para determinado problema. 
Muitas vezes consideraremos que todas as entradas de um dado tamanho são igualmente prováveis. Na prática, é 
possível que essa suposição seja violada, mas, às vezes, podemos utilizar um algoritmo aleatorizado, que efetua 
escolhas ao acaso, para permitir uma análise probabilística e produzir um tempo esperado de execução. Estudaremos 
algoritmos randomizados com mais detalhes no Capítulo 5 e em vários outros capítulos subsequentes. 


Ordem de crescimento 


Usamos algumas abstrações simplificadoras para facilitar nossa análise do procedimento Insertion-Sort. Primeiro, 
ignoramos o custo real de cada instrução, usando as constantes c;para representar esses custos. Então, observamos que 
até mesmo essas constantes nos dão mais detalhes do que realmente necessitamos: expressamos o tempo de execução 
do pior caso como an: + bn + c para algumas constantes a, b e c que dependem dos custos de instrução c,. Desse 
modo, ignoramos não apenas os custos reais de instrução, mas também os custos abstratos ci. 

Agora, faremos mais uma abstração simplificadora. É a taxa de crescimento, ou ordem de crescimento, do 
tempo de execução que realmente nos interessa. Portanto, consideramos apenas o termo inicial de uma fórmula (por 
exemplo, an>), já que os termos de ordem mais baixa são relativamente insignificantes para grandes valores de n. 
Também ignoramos o coeficiente constante do termo inicial, visto que fatores constantes são menos significativos que a 
taxa de crescimento na determinação da eficiência computacional para grandes entradas. No caso da ordenação por 
inserção, quando ignoramos os termos de ordem mais baixa e o coeficiente constante do termo inicial, resta apenas o 
fator de ndo termo inicial. Afirmamos que a ordenação por inserção tem um tempo de execução do pior caso igual a 
O(n>) (lido como “teta de n ao quadrado”). Neste capítulo usaremos informalmente a notação O e a definremos com 
precisão no Capítulo 3. 

Em geral, consideramos que um algoritmo é mais eficiente que outro se seu tempo de execução do pior caso 
apresentar uma ordem de crescimento mais baixa. Devido a fatores constantes e termos de ordem mais baixa, um 
algoritmo cujo tempo de execução tenha uma ordem de crescimento mais alta pode demorar menos tempo para 
pequenas entradas do que um algoritmo cuja ordem de crescimento seja mais baixa. Porém, para entradas 
suficientemente grandes, um algoritmo O(n>), por exemplo, será executado mais rapidamente no pior caso que um 
algoritmo O(n:). 


Exercícios 


2.2-1  Expresse a função n:/1000 — 100n:— 100n + 3 em termos da notação O. 


2.2-2 Considere a ordenação de n números armazenados no arranjo 4, localizando primeiro o menor elemento de 4 
e permutando esse elemento com o elemento contido em 4[1]. Em seguida, determine o segundo menor 
elemento de 4 e permute-o com 4/2]. Continue dessa maneira para os primeiros n — 1 elementos de 4. 
Escreva o pseudocódigo para esse algoritmo, conhecido como ordenação por seleção. Qual invariante de 
laço esse algoritmo mantém? Por que ele só precisa ser executado para os primeiros n — 1 elementos, e não 
para todos os n elementos? Forneça os tempos de execução do melhor caso e do pior caso da ordenação por 
seleção em notação 0. 


2.2-3 Considere mais uma vez a busca linear (veja Exercício 2.1-3). Quantos elementos da sequência de entrada 
precisam ser verificados em média, considerando que o elemento que está sendo procurado tenha a mesma 
probabilidade de ser qualquer elemento no arranjo? E no pior caso? Quais são os tempos de execução do 


caso médio e do pior caso da busca linear em notação O? Justifique suas respostas. 


2.2-4 Como podemos modificar praticamente qualquer algoritmo para ter um bom tempo de execução no melhor 
caso? 


2.3 PROJETO DE ALGORITMOS 


Há uma grande variedade de técnicas de projeto de algoritmos à nossa disposição. Para a ordenação por inserção 
utilizamos uma abordagem incremental: tendo ordenado o subarranjo 4[1 .. j — 1], inserimos o elemento isolado A[;] 
em seu lugar apropriado, o que produz o subarranjo ordenado A[1 ..;]. 

Nesta seção, examinaremos uma abordagem de projeto alternativa, conhecida como “divisão e conquista”, que 
estudaremos com mais detalhes no Capítulo 4. Usaremos tal abordagem para projetar um algoritmo de ordenação cujo 
tempo de execução do pior caso é muito menor que o da ordenação por inserção. Uma vantagem dos algoritmos de 
divisão e conquista é que seus tempos de execução são frequentemente fáceis de determinar com a utilização de 
técnicas que serão apresentadas no Capítulo 4. 


2.3.1 A ABORDAGEM DE DIVISÃO E CONQUISTA 


Muítos algoritmos úteis são recursivos em sua estrutura: para resolver um dado problema, eles chamam a si 
mesmos recursivamente uma ou mais vezes para lidar com subproblemas intimamente relacionados. Em geral, esses 
algoritmos seguem uma abordagem de divisão e conquista: eles desmembram o problema em vários subproblemas 
que são semelhantes ao problema original, mas de menor tamanho, resolvem os subproblemas recursivamente e depois 
combinam essas soluções com o objetivo de criar uma solução para o problema original. 

O paradigma de divisão e conquista envolve três passos em cada nível da recursão: 


Divisão do problema em determinado número de subproblemas que são instâncias menores do problema original. 


Conquista os subproblemas, resolvendo-os recursivamente. Porém, se os tamanhos dos sub-problemas forem 
pequenos o bastante, basta resolver os subproblemas de maneira direta. 


Combinação as soluções dadas aos subproblemas na solução para o problema original. 


O algoritmo de ordenação por intercalação a seguir obedece rigorosamente ao paradigma de divisão e 
conquista. Intuitivamente, ele funciona do modo ilustrado a seguir. 


Divisão: Divide a sequência de n elementos que deve ser ordenada em duas subsequências de 1/2 elementos cada 
uma. 


Conquista: Ordena as duas subsequências recursivamente, utilizando a ordenação por intercalação. 
Combinação: Intercala as duas subsequências ordenadas para produzir a resposta ordenada. 


A recursão “extingue-se” quando a sequência a ser ordenada tiver comprimento 1, visto que nesse caso não há 
nenhum trabalho a ser feito, já que toda sequência de comprimento 1 já está ordenada. 

A operação-chave do algoritmo de ordenação por intercalação é a intercalação de duas sequências ordenadas, no 
passo de “combinação”. Para executar a intercalação, chamamos um procedimento auxiliar Merge(A, p, q, 1), onde 4 é 
um arranjo e p, q e r são índices de enumeração dos elementos do arranjo, tais que p < q <r. O procedimento 
considera que os subarranjos 4[p .. g]e Alg + 1... r] estão em sequência ordenada. Ele os intercala (ou mescla) para 
formar um único subarranjo ordenado que substitui o subarranjo atual A[p .. 7]. 

Nosso procedimento Merge leva o tempo O(n), onde n =r — p + 1 é o número total de elementos que estão sendo 
intercalados, e funciona como descrito a seguir. Retornando ao nosso exemplo do jogo de cartas, suponha que temos 
duas pilhas de cartas com a face para cima sobre uma mesa. Cada pilha está ordenada, com as cartas de menor valor 


em cima. Desejamos juntar as duas pilhas (fazendo a intercalação) em uma única pilha de saída ordenada, que ficará 
com a face para baixo na mesa. Nosso passo básico consiste em escolher a menor das duas cartas superiores nas duas 
pilhas viradas para cima, removê-la de sua pilha (o que exporá uma nova carta superior) e colocar essa carta com a 
face voltada para baixo sobre a pilha de saída. Repetimos esse passo até uma pilha de entrada se esvaziar e, então, 
simplesmente pegamos a pilha de entrada restante e a colocamos virada para baixo sobre a pilha de saída. Em termos 
computacionais, cada passo básico demanda um tempo constante, já que estamos comparando apenas as duas cartas 
superiores. Considerando que executamos no máximo n passos básicos, a intercalação demorará um tempo O(n). 

O pseudocódigo a seguir implementa essa ideia, mas tem uma variação que evita a necessidade de verificar se 
qualquer das duas pilhas está vazia em cada passo básico. Colocamos na parte inferior de cada pilha uma carta 
sentinela, que contém um valor especial que empregamos para simplificar nosso código. Aqui, usamos «o como valor 
de sentinela de modo que, sempre que uma carta com oo for exposta, ela não poderá ser a menor carta, a menos que as 
cartas sentinelas de ambas as pilhas estejam expostas. Porém, assim que isso ocorre, todas as cartas que não são 
sentinelas já terão sido colocadas sobre a pilha de saída. Como sabemos com antecedência que exatamente 7 — p + 1 
cartas serão colocadas sobre a pilha de saída, podemos parar após a execução desse mesmo número de etapas 
básicas. 


MEercE(A, p,q,1) 


1 n=q-p+l 

2 H=f=q 

3 sejamlL[1..n + 1JeR[1..n, + 1] novos arranjos 
4 fori=lton, 

5 L[i] = Alp + 1 — 1] 

6 forj=1Iton, 

7 R[j] = Alg +)] 

8 LI[n,4+1]=o0 

9 Rin,41]=o0 

10 =] 

11 f=] 

2 fork=ptor 

13 if Li] < RI] 

14 then A[k] = L[i] 
15 i=141 
16 else A[k] = R[j] 
17 j=j+1 


Em detalhe, o procedimento Merge funciona da maneira ilustrada a seguir. A linha 1 calcula o comprimento n: do 
subarranjo A[p .. q] e a linha 2 calcula o comprimento n> do subarranjo Alg + 1.. 7]. Criamos os arranjos L e R (de 
“left” e “right”, em inglês, ou “esquerda” e “direita” de comprimentos n1 + 1 e n> + 1, respectivamente, na linha 3; a 
posição extra em cada arranjo conterá a sentinela. O laço for das linhas 4 e 5 copia o subarranjo Alp .. q) em LZ[1... 
ni], e o laço for das linhas 6 e 7 copia o subarranjo Alg + 1... 7] em R[1 .. nº]. As linhas 8 e 9 colocam as sentinelas 
nas extremidades dos arranjos L e R. As linhas 10 a 17, ilustradas na Figura 2.3, executam os 7 — p + 1 passos básicos, 
mantendo o invariante de laço a segurr: 


DTM »»»y»zrrsrrrrocorereroooorororooOOOOS 


8. 9. 901 12..13.04..05.16:.12 8 10.11. 12.13 o I6 17 


LRRBIT snRRIsT dida cido 
i j i j 
(a) (b) 
8... 00011..12-.13.14..15. 16:17 8 10/::1..:12:--83. 145.5. 76:17 


8.0 10.11 12.12 14.18, 16.17 ll 72. 13:14. 18.16: 17 
A -..[1[2/2/3 BEE... SODDEE 
k k 
l 2 2 455 l 23 4 5 l 2 3 4 5 l 2 So do ss 
LIBs|s|7|o R[0[2/3]6)o L [BIBs|7|= R BJ] o | 
i j i J 
(e) (f) 
12 13 14 s 8 910111180 4314151617 
SHBDEDO Bm a = JiTep2po e [sTo pé. 
Ae 5 E A = O VAR = E ED 
LE HEI] ini [ (efado|r|=) + mjefefol- 
i J ! J 
(g) (h) 


) 11 12 13 14/15 7| 17 


(te a[5T6]7] 
o hi 


(1) 


Figura 2.3 Operação das linhas 10a 17 na chamada Merge(A4, 9, 12, 16) quando o subarranjo 4/9... 16] contéma sequência (2, 4,5, 7, 1,2, 
3, 6). Depois de copiar e inserir sentinelas, o arranjo L contém (2, 4,5, 7,00)€e o arranjo R contém (1, 2, 3, 6, o). Posições sombreadas em 
tommais claro em 4 contêm seus valores finais, e posições sombreadas em tom mais claro emLZ e R contêm valores que ainda têmde ser 
copiados de volta em 4. Juntas, as posições sombreadas em tom mais claro sempre incluemos valores contidos originalmente emA [9.. 
16], além das duas sentinelas. Posições sombreadas em tom mais escuro em 4 contêm valores que serão copiados, e posições emtom 
mais escuro emL e R contêm valores que já foram copiados de volta em 4. (ah) Os arranjos 4, L e Re seus respectivos índices k, i,ej 
antes de cada iteração do laço das linhas 12 a 17. 


No início de cada iteração do laço for das linhas 12 a 17, o subarranjo A[p .. k — 1] contém os k — p menores 
elementos de L[1 ..n + 1] e R[1..n2+ 1], em sequência ordenada. 
Além disso, L[i] e R[;] são os menores elementos de seus arranjos que não foram copiados de volta em 4. 


Devemos mostrar que esse invariante de laço é válido antes da primeira iteração do laço for das linhas 12 a 17, 
que cada iteração do laço mantém o invariante e que o invariante fornece uma propriedade útil para mostrar correção 
quando o laço termina. 


Inicialização: Antes da primeira iteração do laço, temos k = p, de modo que o subarranjo Alp .. k — 1] está 
vazio. Esse subarranjo vazio contém os k — p = O menores elementos de L e R e, uma vez que i =; = 1, tanto 
L[i] quanto R[;] são os menores elementos de seus arranjos que não foram copiados de volta em 4. 


Manutenção: Para ver que cada iteração mantém o invariante de laço, vamos supor primeiro que L[i] < R[j]. 
Então, L[i] é o menor elemento ainda não copiado de volta em 4. Como Afp .. k — 1] contém os k — p menores 
elementos, depois de a linha 14 copiar L[i] em A[k], o subarranjo A[p .. k] conterá os k — p + 1 menores 
elementos. O incremento de k (na atualização do laço for) e de i (na linha 15) restabelece o invariante de laço 
para a próxima iteração. Se, em vez disso, L[i] > R[;], então as linhas 16 e 17 executam a ação apropriada para 
manter o invariante de laço. 


Término: No término, k = 7 + 1. Pelo invariante de laço, o subarranjo A[p .. k — 1], que é A[p .. r], contém os k 
—p=r-—p + 1 menores elementos de L[1 ..m + 1]e R[1..n>+ 1] em sequência ordenada. Os arranjos L e R 
Juntos contêm n+ n2+2 =r— p + 3 elementos. Todos os elementos, exceto os dois maiores, foram copiados 
de volta em 4, e esses dois maiores elementos são as sentinelas. 


Para ver que o procedimento Merge é executado no tempo O(n), onde n = r — p + 1, observe que cada uma das 
linhas 1a 3 e 8a 11 demora um tempo constante, que os laços for das linhas 4 a 7 demoram o tempo O(n: + n2) = 
O(n); e que há n iterações do laço for das linhas 12 a 17, cada uma demorando um tempo constante. 

Agora podemos usar o procedimento Merge como uma subrotina no algoritmo de ordenação por intercalação. O 
procedimento Merge-Sort(A, p, 1) ordena os elementos do subarranjo A[p .. r]. Se p > r, o subarranjo tem no máximo 
um elemento e, portanto, já está ordenado. Caso contrário, a etapa de divisão simplesmente calcula um índice q que 
subdivide A[p .. 7] em dois subarranjos: A[p .. q], contendo n/2 elementos, e Alg + 1 .. 7], contendo n/2 elementos.s 


MERGE-SORT(A, p, 1) 

1 ifp<r 

2 then q = L(p $)/2] 

3 MERcE-SORT(A, p, 7) 

4 MERGE-SORT(A, q + 1,1) 
5 MERcE(A, p, q. 1) 


Para ordenar a sequência 4 = (A[1], 4[2], ..., A[n]) inteira, efetuamos a chamada inicial Merge-Sort(A, 1, 
A-comprimento), onde, mais uma vez, A4-comprimento = n. A Figura 2.4 ilustra a operação do procedimento de 
baixo para cima quando n é uma potência de 2. O algoritmo consiste em imtercalar pares de sequências com 1 item para 
formar sequências ordenadas de comprimento 2, intercalar pares de sequências de comprimento 2 para formar 
sequências ordenadas de comprimento 4, e assim por diante, até que duas sequências de comprimento n/2 sejam 
intercaladas para formar a sequência ordenada final de comprimento n. 


2.3.2 ANÁLISE DE ALGORITMOS DE DIVISÃO E CONQUISTA 


Quando um algoritmo contém uma chamada recursiva a si próprio, seu tempo de execução pode ser descrito 
frequentemente por uma equação de recorrência ou recorrência, que descreve o tempo de execução global para um 
problema de tamanho n em termos do tempo de execução para entradas menores. Então, podemos usar ferramentas 
matemáticas para resolver a recorrência e estabelecer limites para o desempenho do algoritmo. 

Uma recorrência para o tempo de execução de um algoritmo de divisão e conquista resulta dos três passos do 
paradigma básico. Como antes, consideramos 7(n) o tempo de execução para um problema de tamanho n. Se o 
tamanho do problema for pequeno o bastante, digamos n < c para alguma constante c, a solução direta demorará um 


tempo constante, que representamos por O(1). Vamos supor que a subdivisão que adotamos para o problema produza 
subproblemas, cada um deles com 7/b do tamanho do problema original. (No caso da ordenação por intercalação, a e 
b são 2, mas veremos muitos algoritmos de divisão e conquista nos quais a + b.) O algoritmo leva o tempo T (n/b) para 
resolver um subproblema de tamanho n/b e, portanto, leva o tempo aT(n/b) para resolver um número a desses 
problemas. Se o algoritmo levar o tempo D(n) para dividir o problema em subproblemas e o tempo C(n) para combinar 
as soluções dadas aos subproblemas na solução para o problema original, obteremos a recorrência 


T(n)= O(1) sen<c. 
aT(n/b)+ D(n)+C(n) caso contrário. 


No Capítulo 4, veremos como resolver recorrências comuns que tenham essa forma. 
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Figura 2.4 A operação de ordenação por intercalação sobre o arranjo 4 = (5, 2,4, 7, 1,3, 2, 6). Os comprimentos das sequências 
ordenadas que estão sendo intercaladas aumentam coma progressão do algoritmo da parte inferior até a parte superior. 


Análise da ordenação por intercalação 


Embora o pseudocódigo para Merge-Sort funcione corretamente quando o número de elementos não é par, nossa 
análise baseada na recorrência será simplificada se considerarmos que o tamanho do problema original é uma potência 
de 2. Então, cada passo de dividir produzirá duas subsequências de tamanho exatamente n/2. No Capítulo 4, veremos 
que essa premissa não afeta a ordem de crescimento da solução para a recorrência. 

Apresentamos a seguir o raciocínio usado para configurar a recorrência para T(n), o tempo de execução do pior 
caso da ordenação por intercalação para n números. A ordenação por intercalação para um único elemento demora um 
tempo constante. Quando temos n > 1 elementos, desmembramos o tempo de execução do modo explicado a seguir. 


Divisão: A etapa de divisão simplesmente calcula o ponto médio do subarranjo, o que demora um tempo 
constante. Portanto, D(n) = (1). 


Conquista: Resolvemos recursivamente dois subproblemas, cada um de tamanho 1n/2, o que contribui com 
2T(n/2) para o tempo de execução. 


Combinação: Já observamos que o procedimento Merge em um subarranjo de n elementos leva o tempo O(n); 
assim, C(n) = O(n). 


Quando somamos as funções D(n) e C(n) para a análise da ordenação por intercalação, estamos somando uma 
função que é (n) a uma função que é O(1). Essa soma é uma função linear de n, ou seja, O(n). A adição dessa função 
ao termo 27(n/2) da etapa de “conquistar” fornece a recorrência para o tempo de execução do pior caso T(n) da 
ordenação por intercalação: 


“JO sen=1, 


T(n)= 
2T(n/2)+0O(n) sen>1. (2.1) 


No Capítulo 4, veremos o “teorema mestre”, que podemos utilizar para mostrar que T(n) é G(n lg nn), onde Tg n 
significa log; n. Como a finção logarítmica cresce mais lentamente do que qualquer função linear, para entradas 
suficientemente grandes, o desempenho da ordenação por intercalação, com seu tempo de execução O(n lg n), supera 
o da ordenação por inserção, cujo tempo de execução é O(n>), no pior caso. 

Não precisamos do teorema mestre para entender intuitivamente por que a solução para a recorrência (2.1) é T(n) 
= O(n lg n). Vamos reescrever a recorrência (2.1) como 


sen=1, 


T(n)=1º 
2T(n/2)+cn sen>l, (2.2) 


onde a constante c representa o tempo exigido para resolver problemas de tamanho 1, bem como o tempo por 
elemento do arranjo para as etapas de dividir e combinar. 

A Figura 2.5 mostra como podemos resolver a recorrência (2.2). Por conveniência, consideramos que n é uma 
potência exata de 2. A parte (a) da figura mostra T(n) que, na parte (b), é expandida em uma árvore equivalente que 
representa a recorrência. O termo cn é a raiz (o custo incorrido no nível superior da recursão), e as duas subárvores da 
raiz são as duas recorrências menores T(n/2). A parte (c) mostra esse processo levado uma etapa adiante pela 
expansão de 7(n/2). O custo incorrido em cada um dos dois subnós no segundo nível de recursão é cn/2. Continuamos 
a expandir cada nó na árvore, desmembrando-o em suas partes constituntes, como determinado pela recorrência, até 
que os tamanhos de problemas se reduzam a 1, cada qual com o custo c. A parte (d) mostra a árvore de recursão 
resultante. 
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Figura 2.5 Como construir uma árvore de recursão para a recorrência 7 (n) = 2T (n/2) + cn. A parte (a) mostra T (n), que expande-se 
progressivamente em (b)—(d) para formar a árvore de recursão. A árvore completamente expandida da parte (d) tem lg n + 1 níveis (isto é, 
temaltura lg n, como indicado) e cada nível contribui como custo total cn. Então, o custo total é cn lg n + cn, que é e(n lg n). 


Em seguida, somamos os custos em cada nível da árvore. O nível superior tem custo total cn, o próximo nível 
abaixo tem custo total c(n/2) + c(n/2) = cn, o nível após esse tem custo total c(n/4) + c(n/4) + c(n/4) + c(n/4) = cn, e 


assim por diante. Em geral, o nível i abaixo do topo tem 2; nós, cada qual contribuindo com um custo c(n/2)), de modo 
que o i-ésimo nível abaixo do topo tem custo total 2; c(n/2:) = cn. O nível inferior tem n nós, cada um contribuindo com 
um custo c, para um custo total cn. 

O número total de níveis da árvore de recursão da Figura 2.5 é lg n + 1, onde n é o número de folhas, 
correspondente ao tamanho da entrada. Um argumento indutivo informal justifica essa afirmação. O caso básico ocorre 
quando n = 1 e, nesse caso, a árvore tem só um nível. Como lg 1 = 0, temos que lg n + 1 dá o número correto de 
níveis. Agora suponha, como hipótese indutiva, que o número de níveis de uma árvore de recursão com 2; folhas seja lg 
2:+1 =i+ 1 (visto que, para qualquer valor de i, temos que lg 2; = i). Como estamos supondo que o tamanho da 
entrada é uma potência de 2, o tamanho da próxima entrada a considerar é 2+1. Uma árvore com 2+ folhas tem um 
nível a mais que uma árvore de 2;folhas, e então o número total de níveis é (i+ D) + 1=lg24H+1. 

Para calcular o custo total representado pela recorrência (2.2), simplesmente somamos os custos de todos os 
níveis. A árvore de recursão tem lg n + 1 níveis, cada um com custo cn, o que nos dá o custo totalcn (gn + 1) =cn lg 
n + cn. Ignorando o termo de ordem baixa e a constante c, obtemos o resultado desejado, O(n lg n). 


Exercícios 


2.3-1.. Usando a Figura 2.4 como modelo, ilustre a operação de ordenação por intercalação para o arranjo 4 = (3, 
41, 52, 26, 38, 57,9, 49). 


2.3-2 Reescreva o procedimento Merge de modo que ele não utilize sentinelas e, em vez disso, pare tão logo todos 
os elementos do arranjo L ou do arranjo R tenham sido copiados de volta em 4 e então copie o restante do 
outro arranjo de volta em 4. 


2.3-3 Use indução para mostrar que, quando n é uma potência exata de 2, a solução da recorrência 


2 sen=2, 
Ti= : 
2T(n/2)+n - sen=2',parak>1 
é T(n)=nlgn. 


2.3-4 A ordenação por inserção pode ser expressa como um procedimento recursivo da maneira descrita a seguir. 
Para ordenar 4[1 .. n], ordenamos recursivamente 4[1 ..n — 1] e depois inserimos 4[n] no arranjo ordenado 
A[1 ..n — 1]. Escreva uma recorrência para o tempo de execução de pior caso dessa versão recursiva da 
ordenação por inserção. 


2.3-5 Voltando ao problema da busca (ver Exercício 2.1-3) observe que, se a sequência 4 for ordenada, 
poderemos comparar o ponto médio da sequência com v e não mais considerar metade da sequência. O 
algoritmo de busca binária repete esse procedimento, dividindo ao meio o tamanho da porção restante da 
sequência a cada vez. Escreva pseudocódigo, iterativo ou recursivo, para busca binária. Demonstre que o 
tempo de execução do pior caso da busca binária é O(lg n1). 


2.3-6 Observe que o laço while das linhas 5 a 7 do procedimento Insertion-Sort na Seção 2.1 utiliza uma pesquisa 
linear para varrer (no sentido inverso) o subarranjo ordenado A[1 .. ; — 1]. Podemos usar, em vez disso, uma 
busca binária (veja Exercício 2.3-5) para melhorar o tempo de execução global do pior caso da ordenação 
por inserção para O(n lg n)? 


2.3-7 * Descreva um algoritmo de tempo E(n lg n) que, dado um conjunto S de n inteiros e um outro inteiro x, 
determine se existem ou não dois elementos em S cuja soma seja exatamente x. 


Problemas 


2.1 


2.2 


Ordenação por inserção para arranjos pequenos na ordenação por intercalação Embora a ordenação 
por intercalação funcione no tempo de pior caso O(n lg n) e a ordenação por inserção funcione no tempo de 
pior caso O(n>), os fatores constantes na ordenação por inserção podem torná-la mais rápida para n pequeno 
em algumas máquinas. Assim, faz sentido adensar as folhas da recursão usando a ordenação por inserção 
dentro da ordenação por imntercalação quando os subproblemas se tornam suficientemente pequenos. 
Considere uma modificação na ordenação por intercalação, na qual n/k sublistas de comprimento k são 
ordenadas usando-se a ordenação por inserção e depois intercaladas com a utilização do mecanismo-padrão 
de imtercalação, onde k é um valor a ser determinado. 


a. Mostre que a ordenação por inserção pode ordenar as n/k sublistas, cada uma de comprimento k, em 
O(nk) tempo do pior caso. 


b. Mostre como intercalar as sublistas em tempo do pior caso O(n lg(n/k)). 


c. Dado que o algoritmo modificado é executado em tempo do pior caso O(nk + n lg(n/k)), qual é o maior 
valor de k em função de n para o qual o algoritmo modificado tem o mesmo tempo de execução que a 
ordenação por intercalação-padrão, em termos da notação 0? 


d. Como k deve ser escolhido na prática? 
Correção do bubblesort 


O bubblesort é um algoritmo de ordenação popular, porém ineficiente. Ele funciona permutando repetidamente 
elementos adjacentes que estão fora de ordem. 


BUBBLESORT(A) 

1 fori=1to A-comprimento 

2 for | = A-comprimento downto i + 1 

É É AD] < Alj = 1] 

4 then trocar A[j] com Al; — 1] 


a. Seja 4' um valor que denota a saída de Bubblesort(4). Para provar que Bubblesort é correto, 
precisamos provar que ele termina e que 


AN]<AP]<..<An], (2.3) 


onde n = 4: comprimento. O que mais deve ser provado para mostrar que Bubblesort realmente realiza 
a ordenação? 


As duas partes seguintes provarão a desigualdade (2.3). 


b. Enuncie com precisão um invariante de laço para o laço for das linhas 2 a 4 e prove que esse mvariante 
de laço é válido. Sua prova deve usar a estrutura da prova do invariante de laço apresentada neste 
capítulo. 


c. Usando a condição de término do invariante de laço demonstrado na parte (b), enuncie um invariante de 
laço para o laço for das linhas 1 a 4 que permita provar a desigualdade (2.3). Sua prova deve empregar 
a estrutura da prova do invariante de laço apresentada neste capítulo. 


Qual é o tempo de execução do pior caso de bubblesort? Como ele se compara com o tempo de 
d. execução da ordenação por inserção? 


2 Correção da regra de Horner 


O fragmento de código a seguir implementa a regra de Homer para avaliar um polinômio 


k=0 


=q,+x(a +x(a,+-+x(a  +xa )::)), 
dados os coeficientes au, ar, ..., ae um valor para x: 
1 y=0 
2 fori=n downto O 
» yY=0,1X"y 


a. Qual é o tempo de execução desse fragmento de código em termos da notação O para a regra de 
Horner? 


b. Escreva pseudocódigo para implementar o algoritmo ingênuo de avaliação polinomial que calcula cada 
termo do polinômio desde o início. Qual é o tempo de execução desse algoritmo? Como ele se compara 
com a regra de Horner? 


c. Considere o seguinte invariante de laço: 
No início de cada iteração do laço for nas linhas 2-3, 
n—(1+1) 


| de E» AD risi 
k=0 


Interprete como igual a zero um somatório que não tenha nenhum termo. Seguindo a estrutura do 
invariante de laço apresentado neste capítulo, use esse invariante de laço para mostrar que, no término, 


k 


d. Conclua demonstrando que o fragmento de código dado avalia corretamente um polinômio caracterizado 
pelos coeficientes ao, an, ..., an. 


2.4 Inversões 


Seja 4[1..n] um arranjo de n números distintos. Se i <j e Ali] > Al], então o par (i, j) é denominado 
inversão de A. 


a. Apresente uma lista com as cinco inversões do arranjo (2, 3,8, 6, 1). 


b. Qual arranjo com elementos do conjunto (1, 2, ..., ni tem o maior número de inversões? Quantas 
inversões ele tem? 


Qual é a relação entre o tempo de execução da ordenação por inserção e o número de inversões no 
c. arranjo de entrada? Justifique sua resposta. 


d. Dê um algoritmo que determine o número de inversões em qualquer permutação com os n elementos em 
tempo do pior caso O(n lg n). (Sugestão: Modifique a ordenação por intercalação.) 


NorTas DO CAPÍTULO 


Em 1968, Knuth publicou o primeiro de três volumes com o título geral The Art of Computer Programming 
[209, 210, 211]. O primeiro volume introduziu o estudo moderno de algoritmos de computação com foco na análise do 
tempo de execução, e a série inteira continua a ser uma referência valiosa e interessante para muitos dos tópicos 
apresentados aqui. De acordo com Knuth, a palavra “algoritmo” é derivada do nome “al- Khowãrizmi”, um matemático 
persa do século IX. 

Aho, Hopcroft e Ullman [5] divulgaram a análise assintótica dos algoritmos — utilizando notações apresentadas no 
Capítulo 3, incluindo a notação O — como meio de comparar o desempenho relativo. Eles também popularizaram a 
utilização de relações de recorrência para descrever os tempos de execução de algoritmos recursivos. 

Knuth [211] oferece um tratamento enciclopédico de muitos algoritmos de ordenação. Sua comparação de 
algoritmos de ordenação (página 381) inclui análises exatas de contagem de passos, como a que realizamos aqui para a 
ordenação por inserção. A discussão por Knuth da ordenação por inserção engloba diversas variações do algoritmo. A 
mais importante delas é a ordenação de Shell, introduzida por D. L. Shell, que utiliza a ordenação por inserção em 
subsequências periódicas da entrada para produzir um algoritmo de ordenação mais rápido. 

A ordenação por intercalação também é descrita por Knuth. Ele menciona que um cotejador (comparador) 
mecânico capaz de intercalar dois conjuntos de cartões perfirados em uma única passagem foi inventado em 1938. J. 
von Neumann, um dos pioneiros da ciência da computação, aparentemente escreveu um programa para ordenação por 
intercalação no computador EDVAC em 1945. 

A história da prova de correção de programas é descrita por Gries [153], que credita a P. Naur o primeiro artigo 
nessa área. Gries atribui invariantes de laço a R. W. Floyd. O livro de Mitchell [256] descreve o progresso mais recente 
na prova da correção de programas. 


1 Quando o laço for um laço for, o momento no qual verificamos o invariante de laço logo antes da primeira iteração é imediatamente 
após a atribuição inicial à variável do contador do laço e logo antes do primeiro teste no cabeçalho do laço. No caso de insertion-sort, esse 
tempo é após atribuir 2 à variável; mas antes do primeiro teste de ; < 4s.comprimento. 

2 Em uma instrução ir-eise, O recuo de ese estará no mesmo nível do ir que a acompanha. Embora a palavra-chave then seja omitida, 
ocasionalmente nos referiremos à porção executada quando o teste que vem após irfor válido como uma cláusula then. Para testes rúltiplos, 
utilizaremos exeirpara os testes que vêm após o primeiro. 

3 Cada procedimento de pseudocódigo neste livro aparece em uma única página; assim, você não terá que discernir níveis de identação 
em códigos que ocupam mais de uma página (referente à edição original). 

a À maioria das linguagens estruturadas em blocos tem constructos equivalentes, embora a sintaxe exata possa ser diferente. A 
linguagem Python não temlaços repeat-uti, € Seus laços ror funcionam de um modo um pouco diferente dos laços ro utilizados neste livro. 
s Há algumas sutilezas aqui. As etapas computacionais que especificamos em linguagem comum frequentemente são variantes de um 
procedimento que exige mais que apenas uma quantidade constante de tempo. Por exemplo, mais adiante neste livro poderíamos dizer 
“ordene os pontos pela coordenada x” que, como veremos, demora mais que uma quantidade constante de tempo. Além disso, observe 
que uma instrução que chama uma sub-rotina demora um tempo constante, embora a sub-rotina, uma vez invocada, possa durar mais. 
Ou seja, separamos o processo de chamar a sub-rotina — passar parâmetros a ela etc. — do processo de executar a sub-rotina. 

6 Essa característica não se mantém necessariamente para um recurso como memória. Uma instrução que referencia m palavras de 
memória e é executada « vezes não referencia necessariamente m palavras de memória distintas. 

7 Veremos, no Capítulo 3, como interpretar formalmente equações contendo notação e. 

s À expressão « denota o menor inteiro maior ou igual a x, e « denota o maior inteiro menor ou iguala x. Essas notações são definidas no 
Capítulo 3. O modo mais fácil para verificar que definir q como (p + »)/2 produz os subarranjos 4lp .. q] e Ala + 1... +] de tamanhos»/2 e n/2, 
respectivamente, é examinar os quatro casos que surgem dependendo de cada valor de p e » ser ímpar ou par. 

9 É improvável que a mesma constante represente exatamente o tempo para resolver problemas de tamanho 1 e também o tempo por 
elemento do arranjo para as etapas de dividir e combinar. Podemos contormar esse problema tomando « como o maior desses tempos e 


entendendo que nossa recorrência impõe um limite superior ao tempo de execução, ou tomando « como o menor desses tempos e 
entendendo que nossa recorrência impõe um limite inferior ao tempo de execução. Ambos os limites valem para a ordem de nlg ne, 
tomados juntos, corresponderão ao tempo de execução e(nlg 1). 


(CRESCIMENTO DE FUNÇÕES 


A ordem de crescimento do tempo de execução de um algoritmo, definida no Capítulo 2, dá uma caracterização 
simples da eficiência do algoritmo e também nos permite comparar o desempenho relativo de algoritmos alternativos. 
Tão logo o tamanho da entrada n se tome suficientemente grande, a ordenação por intercalação, com seu tempo de 
execução do pior caso O(n lg n), vence a ordenação por inserção, cujo tempo de execução do pior caso é O(n,). 
Embora, às vezes, seja possível determinar o tempo exato de execução de um algoritmo, como fizemos no caso da 
ordenação por inserção no Capítulo 2, o que ganhamos em precisão em geral não vale o esforço do cálculo. Para 
entradas suficientemente grandes, as constantes multiplicativas e os termos de ordem mais baixa de um tempo de 
execução exato são dominados pelos efeitos do próprio tamanho da entrada. Quando observamos tamanhos de entrada 
suficientemente grandes para tornar relevante apenas a ordem de crescimento do tempo de execução, estamos 
estudando a eficiência assintótica dos algoritmos. Isto é, estamos preocupados com o modo como o tempo de 
execução de um algoritmo aumenta com o tamanho da entrada no limite, à medida que o tamanho da entrada aumenta 
sem limitação. Em geral, um algoritmo que é assintoticamente mais eficiente será a melhor escolha para todas as 
entradas, exceto as muito pequenas. 

Este capítulo oferece vários métodos padrões para simplficar a análise assintótica de algoritmos. A próxima seção 
começa definindo diversos tipos de “notação assintótica”, da qual já vimos um exemplo na notação O. Então, 
apresentaremos várias convenções de notação usadas em todo este livro e, por fim, faremos uma revisão do 
comportamento de funções que surgem comumente na análise de algoritmos. 


3.1 Noração ASSINTÓTICA 


As notações que usamos para descrever o tempo de execução assintótico de um algoritmo são definidas em 
termos de funções cujos domínios são o conjunto dos números naturais = (0, 1, 2,...;. Tais notações são convenientes 
para descrever a função T(n) do tempo de execução do pior caso, que em geral é definida somente para tamanhos de 
entrada inteiros. Contudo, às vezes, consideramos que é conveniente abusar da notação assintótica de vários modos. 
Por exemplo, poderíamos estender a notação ao domínio dos números reais ou, como alternativa, restringi-la a um 
subconjunto dos números naturais. Porém, é importante entender o significado preciso da notação para que, quando 
abusarmos, ela não seja mal utilizada. Esta seção define as notações assintóticas básicas e também apresenta alguns 
abusos comuns. 


Notação assintótica, funções e tempos de execução 


Usaremos a notação assintótica primariamente para descrever o tempo de execução de algoritmos, como fizemos 
quando escrevemos que o tempo de execução do pior caso para a ordenação por inserção é O(n,). Todavia, na 
realidade a notação assintótica aplica-se a funções. Lembre-se de que caracterizamos o tempo de execução do pior 
caso da ordenação por inserção como an, + bn + c, para algumas constantes a, b e c. Quando afirmamos que o tempo 


de execução da ordenação por inserção é O(n,), abstraímos alguns detalhes dessa função. Como a notação assintótica 
aplica-se a funções, o que quisemos dizer é que O(n,) era a função an, + bn + c que, aqui, por acaso caracteriza o 
tempo de execução do pior caso da ordenação por inserção. Neste livro, as funções às quais aplicamos a notação 
assintótica, normalmente caracterizarão os tempos de execução de algoritmos. Porém, a notação assintótica pode se 
aplicar a funções que caracterizam algum outro aspecto dos algoritmos (a quantidade de espaço que eles usam, por 
exemplo) ou até mesmo a funções que absolutamente nada têm a ver com algoritmos. 

Mesmo quando utilizamos a notação assintótica para o tempo de execução de um algoritmo, precisamos entender 
a qual tempo de execução estamos nos referindo. Às vezes, estamos interessados no tempo de execução do pior caso. 
Porém, frequentemente queremos caracterizar o tempo de execução, seja qual for a entrada. Em outras palavras, muitas 
vezes desejamos propor um enunciado abrangente que se aplique a todas as entradas, e não apenas ao pior caso. 
Veremos que as notações assintóticas prestam-se bem à caracterização de tempos de execução, não importando qual 
seja a entrada. 


Notação O 


No Capítulo 2, vimos que o tempo de execução do pior caso da ordenação por inserção é T(n) = O(n,). Vamos 
definir o que significa essa notação. Para uma dada função g(n), denotamos por O( g(n)) o conjunto de funções 


O(g(n)) = ( f(n) : existem constantes positivas c,,c, e n, tais que 
0<cg(n) <f(n) < cg(n) paratodon >nj). 


Uma função f(n) pertence ao conjunto O( g(n)) se existirem constantes positivas c, e c, tais que ela possa ser 
“encaixada” entre c,g(n) e c, g(n), para um valor de n suficientemente grande. Como O( g(n)) é um conjunto, 
poderíamos escrever “f(n) E O( g(n))” para indicar que f(n) é um membro de (ou pertence a) O( g(n)). Em vez disso, 
em geral escreveremos “f(n) = O( g(n))” para expressar a mesma noção. Esse abuso da igualdade para denotar a 
condição de membro de um conjunto (pertinência) pode parecer confuso, mas veremos mais adiante nesta seção que 
ele tem suas vantagens. 

A Figura 3.1(a) apresenta um quadro intuitivo de funções f(n) e g(n), onde fin) = O (g(n)). Para todos os valores 
de n emn, ou à direita de n,, O valor de f(n) encontra-se em c, g(n) ou acima dele e em c, g(n) ou abaixo desse valor. 
Em outras palavras, para todo n > n,, a função f(n) é igual a g(n) dentro de um fator constante. Dizemos que g(n) é um 
limite assintoticamente restrito para f(n). 

A definição de O(g(n)) exige que todo membro f(n) E O(g(n)) seja assintoticamente não negativo, isto é, que 
fin) seja não negativa sempre que n for suficientemente grande. (Uma função assintoticamente positiva é uma função 
positiva para todo n suficientemente grande.) Por consequência, a própria função g(n) deve ser assintoticamente não 
negativa, senão o conjunto O( g(n)) é vazio. Por isso, consideraremos que toda função usada dentro da notação O é 
assintoticamente não negativa. Essa premissa também se mantém para as outras notações assintóticas definidas neste 
capítulo. 

No Capítulo 2, introduzimos uma noção informal da notação E que consistia em descartar os termos de ordem 
mais baixa e ignorar o coeficiente inicial do termo de ordem mais alta. Vamos justificar brevemente essa intuição, usando 


a definição formal para mostrar que E n2— 3n = O (n2). Para isso, devemos definir constantes positivas c , c en tais 
2 


que 


1 
en"<>n'-3n<en 
1 e) 2 


Cog(n) cg(n) 


An) 


Po Ffn) = O(g(n)) Po Rn) = Olg(n)) Po fin) = 9 (g(n)) 
(a) (b) (c) 

Figura 3.1 Exemplos gráficos das notações O, Oe 9. Emcada parte, o valor de n, mostrado é o mínimo valor possível; qualquer valor 
maior também funcionaria. (a) A notação O limita uma função entre fatores constantes. Escrevemos fn) = O(g(n)) se existirem constantes 
positivas n, c, e c, tais que, emn, e à direita de n,, o valor de fn) sempre encontrar-se entre c, g(n) e c, g(n) inclusive. (b) A notação O 
dá um limite superior para uma função dentro de um fator constante. Escrevemos fn) = O(g(n)) se existirem constantes positivas n,e c 
tais que, emn, e à direita de n,,0 valor de An) sempre estiver abaixo de cg (n). (c) A notação OQ dá um limite inferior para uma função 
dentro de um fator constante. Escrevemos fn) = O(g(n)) se existirem constantes positivas n,e c tais que, emn,çe à direita de n,,0 valor 
de fn) sempre estiver acima de cg(n). 


para todo n > n,. Dividindo por nº temos 


C do tE, 


1 
2 A 
A desigualdade do lado direito pode ser considerada válida para qualquer valor de n > 1, se escolhermos qualquer 


constante c, > 1/2. Do mesmo modo, a desigualdade da esquerda pode ser considerada válida para qualquer valor de n 
> 7, se escolhermos qualquer constante c, < 1/14. Assim, escolhendo c | = 1/14,c,= 1/2 en, = 7, podemos verificar 


que y n2— 3n = O(n2 ). Certamente, existem outras opções para as constantes, mas o importante é que existe alguma 
2 


opção. Observe que essas constantes dependem da função si n2 —3n; uma função diferente pertencente a O(n,) 
2 


normalmente exigiria constantes diferentes. 

Também podemos usar a definição formal para verificar que 6n; £ O(n,). A título de contradição, suponha que 
existam c, e no tais que 61º < c,n? para todo n > n,. Mas, então, divisão por nº? dá n < c,/6, o que não pode ser válido 
para um valor de n arbitrariamente grande, já que c, é constante. 

Intuitivamente, os termos de ordem mais baixa de uma função assintoticamente positiva podem ser ignorados na 
determinação de limites assintoticamente restritos porque eles são insignificantes para grandes valores de n. Quando n é 
grande, até uma minúscula fração do termo de ordem mais alta é suficiente para dominar os termos de ordem mais 
baixa. Desse modo, definir c, como um valor ligeiramente menor que o coeficiente do termo de ordem mais alta e definir 
c, como um valor ligeiramente maior permite que as desigualdades na definção da notação O sejam satisfeitas. Da 
mesma maneira, o coeficiente do termo de ordem mais alta pode ser ignorado, já que ele só muda c, e c, por um fator 
constante igual ao coeficiente. 

Como exemplo, considere qualquer função quadrática f(n) = an? + bn + c, onde a, b e c são constantes e a > 0. 
Descartando os termos de ordem mais baixa e ignorando a constante, produzimos f(n) = O(n,). Formalmente, para 
mostrar a mesma coisa, tomamos as constantes c, = a/4, c, = Tal4 en, =2 - max (|b//a, Vela). . O leitor poderá 


d 
pl) =D an 
? 


verifcar que O< cn?<an?+bn+c< cn? para todo n > n,. Em geral, para qualquer polinômio 
onde a, são constantes e a > 0, temos p(n) = O(nº) (veja Problema 3-1). 

Tendo em vista que qualquer constante é um polinômio de grau 0, podemos expressar qualquer função constante 
como O(n,) ou O(1). Porém, esta última notação é um pequeno abuso porque a expressão não indica qual variável está 
tendendo a infinito.2 Usaremos com frequência a notação E(1) para indicar uma constante ou uma função constante em 
relação a alguma variável. 


Notação O 


A notação O limita assintoticamente uma função acima e abaixo. Quando temos apenas um limite assintótico 
superior, usamos a notação O. Para uma dada função g(n), denotamos por O( g(n)) (lê-se “O grande de g de n” ou, 
às vezes, apenas “ó de g de n”) o conjunto de funções 


O(g(n)) = (f(n): existem constantes positivas c e n, tais que 
0 <f(n) < cg(n) para todo n > n). 


Usamos a notação O para dar um limite superior a uma função, dentro de um fator constante. A Figura 3.1(b) 
mostra a intuição por trás da notação O. Para todos os valores n emn, ou à direita de n,, o valor da função f(n) está 
abaixo de cg(n). 

Escrevemos f(n) = O( g(n)) para indicar que uma função f(n) é um membro do conjunto O( g(n)). Observe que 
fin) = OC g(n)) implica f(n) = O( g(n)), já que a notação O é uma noção mais forte que a notação O. Em termos da 
teoria de conjuntos, escrevemos O( g(n)) E O( g(n)). Assim, nossa prova de que qualquer função quadrática an, + bn 
+ c, onde a > 0 está em O(n,) também mostra que qualquer função quadrática desse tipo está em O(n,). O que pode 
ser mais surpreendente é que, quando a > 0, qualquer função linear an + b está em O(n,), o que é facilmente verificado 
fazendo c = a + |b| e n,= max(1, —b/a). 

Se você já viu a notação O antes, poderá achar estranho que escrevamos, por exemplo, n = O(n,). Na literatura, 
verificamos que, às vezes, a notação O é utilizada informalmente para descrever limites assintoticamente justos, isto é, 
aquilo que definimos usando a notação O. Contudo, neste livro, quando escrevermos f(n) = Ol(g(n)), estaremos 
simplesmente afirmando que algum múltiplo constante de g(n) é um limite assintótico superior para f(n), sem qualquer 
menção de precisão. A distinção entre limites assintóticos superiores e limites assintoticamente justos é padrão na 
literatura de algoritmos. 

Usando a notação O, podemos descrever frequentemente o tempo de execução de um algoritmo apenas 
inspecionando a estrutura global do algoritmo. Por exemplo, a estrutura de loop duplamente aninhado do algoritmo de 
ordenação por inserção vista no Capítulo 2 produz imediatamente um limite superior O(n,) para o tempo de execução 
do pior caso: o custo de cada iteração do loop interno é limitado na parte superior por O(1) (constante), os índices i e j 
são no máximo n, e o loop interno é executado no máximo uma vez para cada um dos n, pares de valores para i e j. 
Tendo em vista que a notação O descreve um limite superior, quando a empregamos para limitar o tempo de execução 
do pior caso de um algoritmo temos um limite para o tempo de execução do algoritmo em cada entrada — o enunciado 
abrangente do qual falamos anteriormente. Desse modo, o limite O(n,) para o tempo de execução do pior caso da 
ordenação por inserção também se aplica a seu tempo de execução para toda entrada. Porém, o limite O(n,) para o 
tempo de execução do pior caso da ordenação por inserção não implica um limite O (n,) para o tempo de execução da 
ordenação por inserção em toda entrada. Por exemplo, vimos no Capítulo 2 que, quando a entrada já está ordenada, a 
ordenação por inserção funciona no tempo O(n). 

Tecnicamente, é um abuso dizer que o tempo de execução da ordenação por inserção é O(n,), visto que, para um 
dado n, o tempo de execução real varia, dependendo da entrada específica de tamanho n. Quando afirmamos que “o 
tempo de execução é O(n,)”, queremos dizer que existe uma função f(n) que é O(n,) tal que, para qualquer valor de n, 


não importando qual entrada específica de tamanho n seja escolhida, o tempo de execução para essa entrada tem um 
limite superior determinado pelo valor f(n). De modo equivalente, dizemos que o tempo de execução do pior caso é 
O(n,). 


Notação O 


Da mesma maneira que a notação O fornece um limite assintótico superior para uma função, a notação OQ nos dá 
um limite assintótico inferior. Para uma determinada função g(n), denotamos por O( g(n)) (lê-se “ômega grande de 
g de n” ou, às vezes, “ômega de g de nº o conjunto de funções 


O(g(n)) = (f(n) : existem constantes positivas c e n, tais que 
0 < cg(n) <f(n) para todo n > n). 


A Figura 3.1(c) mostra a intuição por trás da notação £2. Para todos os valores n emn,ou à direita de n,, O valor 
de f(n) encontra-se em g(n) ou acima de g(n). 

Pelas definições das notações assintóticas que vimos até agora, é fácil demonstrar o importante teorema a seguir 
(veja Exercício 3.1-5). 


Teorema 3.1 
Para quaisquer duas funções f(n) e g(n), temos f(n) = O( g(n)) se e somente se f(n) = O( g(n)) e fin) = Qg(n)). 


Como exemplo de aplicação desse teorema, nossa demonstração de que an, + bn + c = O(n,) para quaisquer 
constantes a, b e c, onde a > 0, implica imediatamente que an, + bn + c = Mn,) e an, + bn + c = O(n,). Na prática, 
em vez de usar o Teorema 3.1 para obter limites assintóticos superiores e inferiores a partir de limites assintoticamente 
precisos, como fizemos nesse exemplo, nós o utilizamos normalmente para demonstrar limites assintoticamente precisos 
a partir de limites assintóticos superiores e inferiores. 

Quando dizemos que o tempo de execução (sem modificador) de um algoritmo é O( g(n)), queremos dizer que, 
não importando qual entrada específica de tamanho n seja escolhida para cada valor de n, o tempo de execução 
para essa entrada é no mínimo uma constante vezes g(n), para n suficientemente grande. De modo equivalente, estamos 
dando um limite inferior para o tempo de execução do melhor caso de um algoritmo. Por exemplo, o tempo de 
execução para o melhor caso da ordenação por inserção é O(n), o que implica que o tempo de execução da ordenação 
por inserção é O(n). 

Portanto, o tempo de execução da ordenação por inserção pertence às funções Sn) e O(n,), já que ele se 
encontra em qualquer lugar entre uma função linear de n e uma função quadrática de n. Além disso, esses limites são tão 
justos assintoticamente quanto possível: por exemplo, o tempo de execução da ordenação por inserção não é Q(n,), 
visto que existe uma entrada para a qual a ordenação por inserção é executada no tempo O(n) (por exemplo, quando a 
entrada já está ordenada). Entretanto, não é contraditório dizer que o tempo de execução do pior caso da ordenação 
por inserção é Q(n,), visto que existe uma entrada que faz o algoritmo demorar o tempo Q(n,). 


Notação assintótica em equações e desigualdades 


Já vimos como a notação assintótica pode ser usada dentro de fórmulas matemáticas. Por exemplo, quando 
apresentamos a notação O, escrevemos “n = O(n,)”. Também poderíamos escrever 2n, + 3n + 1 = 2n, + O(n). Como 
interpretaremos tais fórmulas? 

Quando a notação assintótica está sozinha (isto é, não está dentro de uma fórmula maior) no lado direito de uma 
equação (ou desigualdade), como em n = O(n,), já definimos que o sinal de igualdade significa pertinência a um 
conjunto: n &€ O(n,). Porém, em geral, quando a notação assintótica aparece em uma fórmula, interpretamos que ela 
representa alguma função anônima que não nos preocupamos em nomear. Por exemplo, a fórmula 2n, +3n + 1 =2n,+ 


O(n) significa que 2n,+ 3n+ 1 =2n,+ f(n), onde f(n) é alguma função no conjunto O(n). Nesse caso vale f(n) = 3n + 
1, que de fato está em O(n). 

Utilizar a notação assintótica dessa maneira pode ajudar a eliminar detalhes não essenciais e confusos em uma 
equação. Por exemplo, no Capítulo 2 expressamos o tempo de execução do pior caso da ordenação por intercalação 
como a recorrência 


T(n) = 2T(n/2) + O(n). 


Se estivermos interessados apenas no comportamento assintótico de T(n), não há sentido em especificar 
exatamente todos os termos de ordem mais baixa; entendemos que todos eles estão incluídos na função anônima 
denotada pelo termo O (n). 

Entendemos também que o número de funções anônimas em uma expressão é igual ao número de vezes que a 
notação assintótica aparece. Por exemplo, na expressão 


>o(i. 


há apenas uma função anônima (uma função de i). Portanto, essa expressão não é o mesmo que O(1) + O(2) + ... + 
O(n) que, na realidade, não tem uma interpretação clara. 

Em alguns casos, a notação assintótica aparece no lado esquerdo de uma equação, como em 2n, + O(n) = O(n,). 

Interpretamos tais equações usando a seguinte regra: independentemente de como as funções anônimas são 
escolhidas no lado esquerdo do sinal de igualdade, existe um modo de escolher as funções anónimas no lado 
direito do sinal de igualdade para tornar a equação válida. Assim, nosso exemplo significa que, para qualquer 
função f(n) E O(n), existe alguma função g(n) E O(n,), tal que 2n, + fln) = g(n) para todo n. Em outras palavras, o 
lado direito de uma equação fornece um nível mais grosseiro de detalhes que o lado esquerdo. 

Podemos encadear várias dessas relações, como em 


2n?+3n+1=2nº+ O(n) 
=. 


Podemos interpretar cada equação separadamente pelas regras citadas. A primeira equação diz que existe alguma 
função f(n) E O(n) tal que 2n, + 3n + 1 = 2n, + f(n) para todo n. A segunda equação afirma que, para qualquer 
função g(n) E O(n) (como a função f(n) que acabamos de mencionar), existe alguma função h(n) E O(n,) tal que 
2n, + g(n) = h(n) para todo n. Observe que essa interpretação implica que 2n, + 3n + 1 = O(n,), que é aquilo que o 
encadeamento de equações nos dá intuitivamente. 


Notação O 


O limite assintótico superior fornecido pela notação O pode ser ou não assintoticamente justo. O limite 2n, = O(n,) 
é assintoticamente justo, mas o limite 2n = O(n,) não é. Usamos a notação o para denotar um limite superior que não é 
assintoticamente justo. Definimos formalmente o(g(n)) (lê-se “ó pequeno de g de n”) como o conjunto 


o(g(n)) = (f(n): para qualquer constante positiva c > 0, existe uma constante 
n,>0tal que O <f(n) < cg(n) para todo n > 9). 


Por exemplo, 2n = o(n,), mas 2n, + o(n,). 
As definições da notação O e da notação o são semelhantes. A principal diferença é que em f(n) = O(g(n)), o 
limite O < f(n) < cg(n) se mantém válido para alguma constante c > O mas, em f(n) = o(g(n)), o limite O < f(n) < cg(n) 


é válido para todas as constantes c > 0. Intuitivamente, na notação o, a função f(n) torna-se insignificante em relação a 
g(n) à medida que n se aproxima do infinito; isto é, 


lim = = (). (3.1) 


Alguns autores usam esse limite como uma definição da notação o; a definição neste livro também restringe as 
funções anônimas a assintoticamente não negativas. 


Notação q 


Por analogia, a notação q está para a notação O como a notação o está para a notação O. Usamos a notação q 
para denotar um limite inferior que não é assintoticamente preciso. Um modo de defini-lo é 


fin) E o(g(n)) se e somente se g(n) E o(f(n)). 
Porém, formalmente, definimos q ( g(n)) (lê-se “ômega pequeno de g de n”) como o conjunto q (g(n)) = E H(n): 
para qualquer constante positiva c > 0, existe uma constante 


n9> O tal que O < cg(n) <f(n) para todo n > ns. 


Por exemplo, n?/2 = o(n), mas n,/2 £ o(n,). A relação f(n) = o(g(n)) implica que 
| f(n) 

N—00 
g(n) 


se o limite existir. Isto é, fln) se torna arbitrariamente grande em relação a g(n) à medida que n se aproxima do infinito. 


= 00, 


Comparação de funções 


Muttas das propriedades relacionais de números reais também se aplicam às comparações assintóticas. No caso 
das propriedades seguintes, considere que f(n) e g(n) são assintoticamente positivas. 


Transitividade: 
Hn) = OC g(n)) g(n) = S(h(n)) implicam fin) = S(h(n)), 
fin) = OC g(n)) g(n) = O(h(n)) implicam Hn) = O(h(n)), 
Han) = O g(n)) g(n) = Ah(n)) implicam fin) = Ah(n)), 
Hn) = oC g(n)) g(n) = o(h(n)) implicam Han) = o(h(n)), 
Han) = (gn) g(n) = (h(n)) implicam Sn) = (h(n)). 


Reflexividade: 
Hn) = Ofn)) 
Hn) = On) 


Ho) = Mw) 


Simetria: 
fin) = O( g(n)) se e somente se g(n) = O(fn)). 


Simetria de transposição: 


fin) = O( g(n)) se e somente se g(n) = A fn)), 
fin) = o( g(n)) se e somente se g(n) = o(f(n)). 


Como essas propriedades se mantêm válidas para notações assintóticas, podemos traçar uma analogia entre a 
comparação assintótica de duas funções fe g e a comparação de dois números reais a e b: 


fun) = Oem) é como a<b, 
Hn) = M g(n)) é como a>b, 
Xin) = e(g(n)) é como a=b, 
Kin) = o(g(n)) é como a<b, 

Sn) = (g(n)) é como a>b. 


Dizemos que f(n) é assintoticamente menor que g(n) se f(n) = o(g(n)) e que f(n) é assintoticamente maior 


que g(n) se f(n) = o( g(n)). 
Contudo, uma das propriedades de números reais não é transportada para a notação assintótica: 


Tricotomia: Para quaisquer dois números reais a e b, exatamente uma das propriedades a seguir deve ser válida: a 
<ba=boua>b. 


Embora quaisquer dois números reais possam ser comparados, nem todas as funções são assintoticamente 
comparáveis. Isto é, para duas funções f(n) e g(n), pode acontecer que nem f(n) = O(g(n)) nem fln) = O(g(n)) sejam 
válidas. Por exemplo, não podemos comparar as funções n e n, + ser n utilizando a notação assintótica, visto que o valor 
do expoente em nn, + sen n oscila entre O e 2, assumindo todos os valores intermediários. 


Exercícios 


3.1-1 Sejam/f(n) e g(n) funções assintoticamente não negativas. Usando a definição básica da notação O, prove que 


max(fn), g(1n)) = O(fn) + g(n)). 
3.1-2 Mostre que, para quaisquer constantes reais a e b, onde b > 0, 
(n + a) = O(n). (3.2) 
3.1-3 Explique por que a declaração “O tempo de execução no algoritmo 4 é no mínimo O(n,)” não tem sentido. 
3.1-4 É verdade que 2 +! = O(2,)? É verdade que 22, = O(2,)? 
3.1-5 Demonstre o Teorema 3.1. 


3.1-6 Prove que o tempo de execução de um algoritmo é O( g(n)) se e somente se seu tempo de execução do pior 
caso é O( g(n)) e seu tempo de execução do melhor caso é O g(n)). 


3.1-7 Prove que o(g(n)) N o( g(n)) é o conjunto vazio. 


Podemos estender nossa notação ao caso de dois parâmetros n e m que podem tender a infinito 
independentemente a taxas distintas. Para uma dada função g(n, m), denotamos por O( g(n, m)) o conjunto 
de finções 


3.1-8 


O(gt(n, m)) = (f(n, m): existem constantes positivas c,n, em, 
tais que O <f(n,m) < cg(n,m) 
para todon >n,oum >m,). 


Fomeça definições correspondentes para O(g(n, m)) e O(g(n, m)). 


3.2 Norações PADRÃO E FUNÇÕES COMUNS 


Esta seção revê algumas finções e notações matemáticas padrões e explora as relações entre elas. A seção 
também ilustra o uso das notações assintóticas. 


Monotonicidade 


Uma função f(n) é monotonicamente crescente sem < n implica f(m) < f(n). De modo semelhante, ela é 
monotonicamente decrescente se m < n implica f(m) > f(n). Uma função f(n) é estritamente crescente sem <n 
implica f(m) < f(n) e estritamente decrescente se m <n implica f(m) > f(n). 


Pisos e tetos 


Para qualquer número real x, denotamos o maior inteiro menor ou iguala x por x (lê-se “o piso de x”) e o menor 
inteiro maior ou igual a x por x (lê-se “o teto de x”). Para todo x real, 


x-1i<lx]<r<Ix|<x+1. (3.3) 


Para qualquer inteiro n, 
n2+n/2=n 
e, para qualquer número real n > O e inteiros a, b > 0, 


Ha aa 


b 
a es 
E > tema D (3.7) 


A função piso flx) = x é monotonicamente crescente, como também a função teto f(x) =x . 


Aritmética modular 


Para qualquer inteiro a e qualquer inteiro positivo n, o valor a mod n é o resto do quociente a/n: a mod n = a — 
aín n. (3.8) 


amodn=a-la/nln. (3.8) 
Segue-se que 
0<amodn <n. (3.9) 


Dada uma noção bem definida do resto da divisão de um inteiro por outro, é conveniente providenciar notação 
especial para indicar a igualdade de restos. Se (a mod n) = (b mod n), escrevemos a = b (mod n) e dizemos que a é 
equivalente a b , módulo n. Em outras palavras, a = b (mod n) se a e b têm o mesmo resto quando divididos por n. 
De modo equivalente, a = b (mod n) se e somente se n é um divisor de b — a. Escrevemos a =/b (mod n) se a não é 
equivalente a b, módulo n. 


Polinômios 


Dado um inteiro não negativo d, um polinômio em n de grau d é uma função p(n) da forma 


d 
(n) = ) an 
P | 
1=0 
onde as constantes a,, à,, ..., a; são os coeficientes do polinômio e a, £ O. Um polinômio é assintoticamente positivo 


se e somente se a, > 0. No caso de um polinômio assintoticamente positivo p(n) de grau d, temos p(n) = O(n,). Para 
qualquer constante real a > 0, a função n, é monotonicamente crescente, e para qualquer constante real a < 0, a função 
n,é monotonicamente decrescente. Dizemos que uma função f(n) é polinomialmente limitada se f(n) = O(n,) para 
alguma constante X. 


Exponenciais 


Para todos os valores a £ O, m e n reais, temos as seguintes identidades: 


a? = | 
a! = a, 
a = 1/a, 
( ar)" et arm 
(ar) = Cia À 
a” a” a a” +n : 


Para todo ne a > 1, a função a, é monotonicamente crescente em n. Quando conveniente, consideraremos 00 = 1. 
Podemos relacionar as taxas de crescimento de polinômios e exponenciais pelo fato a seguir. Para todas as 
constantes reais a e b tais que a > 1, 


lim =0 (3.10) 


da qual podemos concluir que 


= 000". 


Portanto, qualquer função exponencial com uma base estritamente maior que 1 cresce mais rapidamente que 
qualquer função polinomial. 
Usando e para denotar 2,71828..., a base da função logaritmo natural, temos para todo x real, 


Feltro E, (3.11) 
213! 


DM] 2 


onde “!” denota a função fatorial, definida mais adiante nesta seção. Para todo x real, temos a desigualdade 

e>1+x, (3.12) 
onde a igualdade vale somente quando x = 0. Quando |x| < 1, temos a aproximação 

l+x<e<irrx+x. (3.13) 


Quando x — 0, a aproximação de e, por 1 + x é bastante boa: 
e=1+x+ O(x). 


(Nessa equação, a notação assintótica é usada para descrever o comportamento limitante como x — 0 em vez de x — 
0.) Temos, para todo x, 


n 


lim =e (3.14) 


00 


X 
1+> 
n 


Logaritmos 


Utilizaremos as seguintes notações: 


lgn = log n (logaritmo binário), 
Inn = log. n (logaritmo natural, 
lg: n = (lg n) (exponenciação), 
lelgn = lg(lg n) (composição). 


Uma importante convenção de notação que adotaremos é que funções logarítmicas se aplicarão apenas ao 
próximo termo na fórmula; assim, lg n + k significará (lg n) + k e não le(n + k). Se mantivermos b > 1 constante, 
então para n > O a função log> n será estritamente crescente. 

Paratodoa>0,hb>0,c>0enreal, 


log. a 


a = “o, 
(ab) = log a+log b, 
log, q = nloga, 


log. a 


2 


onde, em cada uma dessas equações, nenhuma das bases de logaritmos é 1. 

Pela equação (3.15), mudar a base de um logaritmo de uma constante para outra altera o valor do logaritmo 
somente por um fator constante, portanto usaremos frequentemente a notação “lg n” quando não nos importarmos com 
fatores constantes, como na notação O. Os cientistas da computação consideram que 2 é a base mais natural para 
logaritmos porque muitos algoritmos e estruturas de dados envolvem a divisão de um problema em duas partes. 

Existe uma expansão de série simples para In(1 + x) quando |x| < 1: 


Xv xr gx rg 


nl+)=x-—>+—> > 4 —.. 
2 3 4/5 


Também temos as seguintes desigualdades para x > —1: 


— <n(i+0<x, (3.17) 


1+x 


onde a igualdade é válida somente para x = 0. 
Dizemos que uma função f(n) é polilogaritmicamente limitada se f(n) = O(lgé n) para alguma constante k. 
Podemos relacionar o crescimento de polinômios e polilogaritmos substituindo 


b b 

im 8” mB" 
n—00 [2 é n=500 9º 

Desse limite, podemos concluir que 

Ibn =o(n,) 


para qualquer constante a > 0. Desse modo, qualquer função polinomial positiva cresce mais rapidamente que qualquer 
função polilogarítmica. 


O, 


Fatoriais 


Anotação n! (lê-se “n fatorial” é definida para inteiros n > O como 


q sen=0, 
n(n—1)! sen>o0. 


Assmn!=1:2:3:::n. 
Um limite superior fraco para a função fatorial é n! <n,, visto que cada um dos n termos no produto do fatorial é 
no máximo n. A aproximação de Stirling, 


n 


n!= 2an|É 1+el! 


e n 


onde e é a base do logaritmo natural, dá um limitante superior mais preciso, e também um limitante inferior. O Exercício 
3.2-3 pede para provar: 


nto = on”), 
nto = w(2"), 
Ig(n!) = O(nlgn), (3.19) 


onde a aproximação de Stirling é útil na demonstração da equação (3.19). A equação a seguir também é válida 
para todo n> 1: 


n!=v27n 


! e” (3.20) 


e 


onde 


<Q < = ; (3.21) 
2n+1 " 12n 


Iteração funcional 


Usamos a notação f (i)(n) para denotar a função f(n) aplicada iterativamente i vezes a um valor inicial de n. 
Formalmente, seja f(n) uma finção no domínio dos números reais. Para inteiros não negativos i, definimos 
recursivamente: 


ceT=0, 


Po 
CEL) sei>0 


Por exemplo, se f(n) = 2n, então f()(n) = 2in. 


A função logaritmo iterado 


Usamos a notação le* n (lê-se “log estrela de n”) para denotar o logaritmo iterado, que é definido da seguinte 
maneira: seja le(i) n definida da maneira anterior, com f(n) = lg n. Como o logaritmo de um número não positivo é 
indefinido, lg(i) n só é definido se le(i-1) n > 0. Certifique-se de distinguir le(i) n (a função logaritmo aplicada i vezes em 
sucessão, começando com o argumento n) de lgi n (o logaritmo de n elevado à i-ésima potência). Então, definimos a 
função logaritmo iterado como 


lg*n = min [i> 0: IgOn< 1). 


O logaritmo iterado é uma função que cresce muito lentamente: 


1a” 2 = Ls 

lg* 4 = AR 

lg* 16 = 3, 
lg* 65536 — 4, 
lg* (255536) — 5. 


Tendo em vista que o número de átomos no universo visível é estimado em cerca 1080, que é muito menor que 
265536, raramente encontraremos uma entrada de tamanho n tal que lg* n > 5. 


Números de Fibonacci 


Definimos os números de Fibonacci pela segunte recorrência: 


E = bB; 
F, = 1, (3.22) 
F, = F,+F,parai>2. 


Portanto, cada número de Fibonacci é a soma dos dois números anteriores, produzindo a sequência 
01 123056, 1352134055; ums 


Os números de Fibonacci estão relacionados com a razão áurea p e com seu conjugado q”, que são as duas 
raízes da equação 


2=x+1 (3.23) 


e são dados pelas seguintes fórmulas (veja Exercício 3.2-6): 


1+ 4/5 


2 (3.24) 
= 1,618083.... 


A 1=4)5 


D = ————— 
2 
- —0,61803.... 


Q = 


Especificamente, temos 

4 = 4 

p=[€, 
5 

que podemos provar por indução (Exercício 3.2-6). Como |p”| < 1, temos 


Poa 
5 dE 
1 
e, 
2 


o que implica que 


F = God 3.25 
NFaE sas 


o que equivale a dizer que o i-ésimo número de Fibonacci F'qi é igual a / 5, arredondado para o inteiro mais próximo. 
Portanto, os números de Fibonacci crescem exponencialmente. 
Exercícios 


3.2-1 Mostre que, se f(n) e g(n) são funções monotonicamente crescentes, então as funções f(n) + g(n) e Htg(n)) 
também são e, se além disso, f(n) e g(n) são não negativas, então fin) - g(n) é monotonicamente crescente. 


3.2-2 Prove a equação (3.16). 

3.2-3 Prove a equação (3.19). Prove também que n! = o(2,) e que n! = o(n,). 

3.2-4 A função lg n! é polinomialmente limitada? A função lg lg n! é polinomialmente limitada? 
3.2-5 Qualé assintoticamente maior: le(lg* n) ou lg* (lg n)? 

3.2-6 Prove que a razão áurea q e seu conjugado q” satisfazem a equação x, =x + 1. 


3.2-7 Prove por indução que o i-ésimo número de Fibonacci satisfaz à igualdade 


4d —4 
onde q é a razão áurea e q” é seu conjugado. 


3.2-8 Prove que k In k = O(n) implica k = O(n/ln n). 


Problemas 
3-1 Comportamento assintótico de polinômios 
Seja 


d | 
p(n) = D an / 
1=0 


onde a, > 0, um polinômio de grau d em n, e seja k uma constante. Use as definções das notações 
assintóticas para provar as propriedades a segurr. 


a. Sek>d, então p(n) = O(ns). 
b. Sek<d, então p(n) = ns). 
c Sek=d, então p(n) = O(ns). 
d. Sek>d, então p(n) = o(n:). 
e Sek<d, então p(n) = (ns). 
3-2 Crescimentos assintóticos relativos 


Indique, para cada par de expressões (4, B) na tabela a seguir, se 4 é 0,0, 92, o ou O de B. Considere que 


k>1,e>0€ec>1 são constantes. Sua resposta deve estar na forma da tabela, com “sim” ou “não” escrito 
em cada retângulo. 


3-3 


3-4 


A (o) 
a lg*n 
b. nº 
c Jn 
d. 2 
e n'se 


Ordenação por taxas de crescimento assintóticas 


a. 


b. 


Classifique as funções a seguir por ordem de crescimento; isto é, determine um arranjo g1, 22, ..., g3 das 
funções que satisfazem a gi = O( 2»), 2 = O g3), ..., g» = Q( g»). Subdivida sua lista em classes de 
equivalência tais que f(n) e g(n) estejam na mesma classe se e somente se f(n) = O(g(n)). 


Ie(lg* n) 2stn [v2 p n? n! (Ig n) 
(5) nº lg?n Ig(n!) 2” nen 
In Inn lg*n n:2" n's lg 1 Inn 1 
2ts 1 (Ig ns" e" gts n (n+1)! Vign 
lg*(Ig n) pen n 2” nlgn 22" 
Dê um exemplo de uma função não negativa f(n) tal que, para todas as funções gn) da parte (a), fln) 


não seja nem O(g(n)), nem O(g(n)). 


Propriedades da notação assintótica 


Sejam f(n) e g(n) funções assintoticamente positivas. Prove ou desprove cada uma das seguintes conjeturas. 


a. 


b. 


Hu) = A g(n)) implica g(n) = OG). 
Ho) + g(n) = O(min(Ãn), g(m))). 


Hn) = O( g(n)) implica le(f(n)) = O(lg( g(n))), onde Ig( g(n)) > 1 e f(n) > 1 para todo n suficientemente 
grande. 


Sin) = O( g(n)) implica 241) = O(2e(1). 
Ho) = An). 
Hu) = A g(n)) implica g(n) = A fn)). 
Ho) = OCA?) 


3-5 


h. fin) + (fin) = On). 


Variações para O e O 


Alguns autores definem O de modo ligeiramente diferente de nós; vamos usar “2 (lê-se “ômega infinito”) para 


essa definição alternativa. Dizemos que f(n) = (g(n)) se existe uma constante positiva c tal que f(n) > cg(n) 
> 0 para infinitos inteiros n. 


a. Mostre que, para quaisquer duas funções f(n) e g(n) que são assintoticamente não negativas, f(n) = 


Olg(n)) ou fin) = O(g(n)) ou ambas, enquanto isso não é verdade se usarmos €2 em vez de É, 


(8,9) 
db. Descreva as vantagens e as desvantagens potenciais de se usar “2 em vez de Q para caracterizar os 
tempos de execução de programas. 


Alguns autores também definem O de um modo ligeiramente diferente; vamos usar O” para a definição 
alternativa. Dizemos que f(n) = O"(g(n)) se e somente se |f(n)| = Ol(g(n)). 


c. O que acontece para cada direção de “se e somente se” no Teorema 3.1 se substiturmos O por O”, mas 
ainda usarmos 0? 


Alguns autores definem Ô (lê-se “6 suave” para indicar O com fatores logarítmicos ignorados: 


Olg(n)) = (f(n): existem constantes positivas c, k e n, tais que 
0 <f(n) < cg(n) lg* (n) para todon > n,). 


d. Defina O e O de maneira semelhante. Prove a analogia correspondente ao Teorema 3.1. 
Funções iteradas 


Podemos aplicar o operador de iteração * usado na função lg* a qualquer função monotonicamente crescente 
f(n) no domínio dos números reais. Para uma dada constante c E , definimos a função iterada (ou repetida) 
por 


fim)=minfi>0f(n<c. 


que não necessita ser bem definida em todos os casos. Em outras palavras, a quantidade f * (n) é o número 
de aplicações iteradas da função f necessárias para reduzir seu argumento a c ou menos. 


Para cada uma das funções f(n) e constantes c a seguir, forneça um limite tão justo quanto possível para f 


“dn. 


Kn) c fkn) 
a n-1 0 
b. lIgn 1 
CSA n/2 1 
d. n/2 z 
e. do a 


Ê Yn 1 

g. n!/3 2 

h. n/lg n é 
Noras DO CAPÍTULO 


Knuth [182] traça a origem da notação O em texto de teoria dos números escrito por P. Bachmam em 1892. A 
notação o foi criada por E. Landau, em 1909, para sua discussão da distribuição de números primos. As notações OQ e 
O foram defendidas por Knuth [213] para corrigir a prática popular, mas tecnicamente descuidada, de se usar na 
literatura a notação O para os limites superiores e inferiores. Muitas pessoas continuam a usar a notação O onde a 
notação O é mais precisa tecnicamente. Uma discussão adicional da história e do desenvolvimento de notações 
assintóticas pode ser encontrada em obras de Knuth [209, 213] e em Brassard e Bratley [54]. Nem todos os autores 
definem as notações assintóticas do mesmo modo, embora as várias definições concordem na maioria das situações 
comuns. Algumas das definições alternativas abrangem funções que não são assintoticamente não negativas, desde que 
seus valores absolutos sejam adequadamente limitados. 

A equação (3.20) se deve a Robbins [297]. Outras propriedades de funções matemáticas elementares podem ser 
encontradas em qualquer bom livro de referência de matemática, como Abramowitz e Stegun [1] ou Zwillinger [362], 
ou em um livro de cálculo, como Apostol [18] ou Thomas et al. [334]. Knuth [209] e Graham, Knuth e Patashnik [152] 
contêm grande quantidade de material sobre matemática discreta, tal como utilizada em ciência da computação. 


1 Na notação de conjuntos, um sinal de dois-pontos deve ser lido como “tal que”. 

20 problema real é que nossa notação comum para funções não distingue entre funções e valores. Em cálculo ,os parâmetros para uma 
função são claramente especificados: a função n2 poderia ser escrita como n.n20u até mesmo 7.72. Porém, a adoção de uma notação mais 
rigorosa complicaria manipulações algébricas e, assim, optamos por tolerar o abuso. 


DivisÃO E CONQUISTA 


Na Seção 2.3.1, vimos como a ordenação por intercalação serve como exemplo do paradigma divisão e 
conquista. Lembre-se de que, segundo esse paradigma, resolvemos um problema recursivamente aplicando três etapas 
em cada nível da recursão: 


Divisão o problema em certo número de subproblemas que são instâncias menores do mesmo problema. 


Conquista os subproblemas resolvendo-os recursivamente. Entretanto, se os tamanhos dos subproblemas forem 
suficientemente pequenos, basta resolvê-los de modo direto. 


Combinação as soluções dos subproblemas na solução para o problema original. 


Quando os subproblemas são suficientemente grandes para serem resolvidos recursivamente, trata-se de um caso 
recursivo. Logo que os subproblemas se tornam suficientemente pequenos que não mais recorremos à recursão, 
dizemos que a recursão “se esgotou” e que chegamos ao caso-base. Às vezes, além de subproblemas que são 
instâncias menores do mesmo problema, temos de resolver subproblemas que não são exatamente iguais ao problema 
original. Consideramos a solução de tais problemas como parte da etapa “combinar”. 

Neste capítulo, veremos mais algoritmos baseados em divisão e conquista. O primeiro resolve o problema do 
subarranjo máximo: toma como entrada um arranjo de números e determina o subarranjo contíguo cujos valores 
resultem na maior soma. 

Então, estudaremos dois algoritmos de divisão e conquista para multiplicar matrizes n x n. O tempo de execução 
de um deles é O(n;) , o que não é melhor do que o método direto da multiplicação de matrizes quadradas. Porém, o 
tempo de execução do outro, o algoritmo de Strassen, é O(n, 1), que supera assintoticamente o método direto. 


Recorrências 


As recorrências andam de mãos dadas com o paradigma divisão e conquista, porque nos dão um modo natural de 
caracterizar os tempos de execução de algoritmos de divisão e conquista. Uma recorrência é uma equação ou 
desigualdade que descreve uma função em termos de seu valor para entradas menores. Por exemplo, na Seção 2.3.2 
descrevemos o tempo de execução do pior caso T(n) do procedimento Merce-Sorr pela recorrência 


O(1) sen=1 


T(n)= 
2T(n/29)+O(n) sen>l 


(4.1) 


cuja solução afirmamos ser T(n) = O(n lg n). 

As recorrências podem tomar muitas formas. Por exemplo, um algoritmo recursivo poderia dividir problemas em 
tamanhos desiguais, como uma subdivisão 2/3 para 1/3. Se as etapas de divisão e combinação levarem tempo linear, tal 
algoritmo dará origem à recorrência T(n) = T (2n/3) + T(n/3) + O(n). 

Os subproblemas não estão necessariamente restritos a ser uma fração constante do tamanho do problema original. 
Por exemplo, uma versão recursiva da busca linear (veja Exercício 2.1-3) criaria apenas um subproblema contendo 


somente um elemento a menos do que o problema original. Cada chamada recursiva levaria tempo constante mais o 
tempo das chamadas recursivas que fizer, o que produz a recorrência T(n) = T(n - 1) + O(I). 

Este capítulo apresenta três métodos para resolver recorrências, isto é, para obter limites assintóticos “O” ou “O” 
para a solução. 


* No método de substituição, arriscamos um palpite para um limite e então usamos indução matemática para 
provar que nosso palpite estava correto. 

* O método da árvore de recursão converte a recorrência em uma árvore cujos nós representam os custos 
envolvidos em vários níveis da recursão. Usamos técnicas para limitar somatórios para resolver a recorrência. 

* O método mestre dá limites para recorrências da forma 


T(n) = aT(n/b) + Kn), (4.2) 


ondea>1,h>1 ef(n) é uma função dada. Tais recorrências ocorrem frequentemente. Uma recorrência da forma 
da equação (4.2) caracteriza um algoritmo de divisão e conquista que cria a subproblemas, cada um com 1/b do 
tamanho do problema original e no qual as etapas de divisão e conquista, juntas, levam o tempo f(n). 

Para utilizar o método mestre, você terá de memorizar três casos; porém, com isso, será fácil determinar limites 
assintóticos para muitas recorrências simples. Usaremos o método mestre para determinar os tempos de execução 
de algoritmos de divisão e conquista para o problema do subarranjo máximo e para a multiplicação de matrizes, 
bem como para outros algoritmos baseados no método de divisão e conquista em outros lugares neste livro. 


Ocasionalmente veremos recorrências que não são igualdades, porém, mais exatamente, desigualdades, como T(n) 
< 2T(n/2) + O(n). Como tal recorrência declara somente um limite superior para T(n), expressaremos sua solução 
usando a notação O em vez da notação O. De modo semelhante, se a desigualdade for invertida para T(n) > 2T (n/2) + 
O(n), então, como a recorrência dá apenas um limite mferior para T(n), usaríamos a notação Q em sua solução. 


Detalhes técnicos 


Na prática, negligenciamos certos detalhes técnicos quando enunciamos e resolvemos recorrências. Por exemplo, 
se chamarmos Mercr-Sorr para n elementos quando n é ímpar, terminaremos com subproblemas de tamanho n/2 e n/2. 
Nenhum dos tamanhos é realmente 1/2 porque 1/2 não é um inteiro quando n é ímpar. Tecnicamente, a recorrência que 
descreve o tempo de execução de Mercr-Sorr é, na realidade, 


o(1) sen=1 


a T(n/2)+T(jn/2)+em) sen>1. 


(4.3) 


As condições de contorno representam uma outra classe de detalhes que em geral ignoramos. Visto que o tempo 
de execução de um algoritmo para uma entrada de tamanho constante é uma constante, as recorrências que surgem dos 
tempos de execução de algoritmos geralmente têm T(n) = O(I) para n suficientemente pequeno. Em consequência 
disso, por conveniência, em geral omitiremos declarações sobre as condições de contomo de recorrências e 
consideraremos que T(n) é constante para n pequeno. Por exemplo, normalmente enunciamos a recorrência (4.1) como 


T(n) = 2T(n/2) + O(n) (4.4) 


sem atribuir explicitamente valores para n pequeno. A razão é que, embora mudar o valor de T(1) altere a solução exata 
para a recorrência, normalmente a solução não muda por mais de um fator constante, e assim a ordem de crescimento 
não é alterada. 

Quando enunciamos e resolvemos recorrências, muitas vezes, omítimos pisos, tetos e condições de contorno. 
Seguimos em frente sem esses detalhes, e mais tarde determinamos se eles têm importância ou não. Em geral não têm, 
mas é importante saber quando têm. A experiência ajuda, e também alguns teoremas que afirmam que esses detalhes 


não afetam os limites assintóticos de muitas recorrências que caracterizam os algoritmos de divisão e conquista (veja o 
Teorema 4.1). Porém, neste capítulo, examinaremos alguns desses detalhes e ilustraremos os bons aspectos de métodos 
de solução de recorrência. 


4.1 (O PROBLEMA DO SUBARRANJO MÁXIMO 


Suponha que lhe tenha sido oferecida a oportunidade de investir na Volatile Chemical Corporation. Assim como os 
produtos químicos que a empresa produz, o preço da ação da Volatile Chemical Corporation também é bastante volátil. 
Você só pode comprar uma única unidade de ação somente uma vez e então vendê-la em data posterior. Além disso, as 
operações de compra e venda só podem ser executadas após o fechamento do pregão do dia. Para compensar essa 
restrição, você pode saber qual será o preço da ação no futuro. Sua meta é maximizar seu lucro. A Figura 4.1 mostra o 
preço da ação durante um período de 17 dias. Você pode comprar a ação a qualquer tempo, começando depois do dia 
O, quando o preço é 8100 por ação. Claro que você gostaria de “comprar na baixa e vender na alta” — comprar ao 
preço mais baixo possível e mais tarde vender ao preço mais alto possível — para maximizar seu lucro. Infelizmente, 
pode ser que você não consiga comprar ao preço mais baixo e vender ao preço mais alto dentro de um determinado 
período. Na Figura 4.1, o preço mais baixo ocorre depois do dia 7, que ocorre após o preço mais alto, depois do dia 
l; 

Você poderia achar que sempre pode maximizar o lucro comprando ao preço mais baixo ou vendendo ao preço 
mais alto. Por exemplo, na Figura 4.1, maximizariamos o lucro comprando ao preço mais baixo após o dia 7. Se essa 
estratégia sempre funcionasse, seria fácil determinar como maximizar o lucro: localizar o preço mais alto de todos e o 
preço mais baixo de todos, e então percorrer os dados começando na esquerda a partir do preço mais alto para achar 
o preço mais baixo anterior, e examinar os dados começando na direita a partir do preço mais baixo para achar o último 
preço mais alto e escolher o par que apresentasse a maior diferença. A Figura 4.2 apresenta um contraexemplo simples 
que demonstra que, às vezes, o lucro máximo não ocorre quando compramos ao preço mais baixo nem quando 
vendemos ao preço mais alto. 
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Figura 4.1 Informações sobre o preço da ação da Volatile Chemical Corporation ao final do pregão diário durante um período de 17 dias. 
O eixo horizontal do diagrama indica o dia, e o eixo vertical mostra o preço. A linha inferior da tabela dá a mudança no preço ocorrida no 
dia anterior. 


Figura 4.2 Um exemplo que mostra que o lucro máximo nem sempre começa no preço mais baixo ou termina no preço mais alto. 
Novamente, o eixo horizontal indica o dia, e o eixo vertical mostra o preço. Aqui, o lucro máximo de $3 por ação seria auferido 
comprando após o dia 2 e vendendo após o dia 3. No global, o preço de $7 após o dia 2 não é o mais baixo e o preço de $10 após o dia 3 
não é o mais alto. 


Uma solução de força bruta 


Podemos propor facilmente uma solução de força bruta para esse problema: experimente todo par possível de 
datas de compra e venda no qual a data de compra seja anterior à data de venda. Um período de n dias tem (n2 ) de 
tais pares de dados. Visto que (1112 ) + é Q(n? ) e o melhor que podemos esperar é avaliar cada par de dados em tempo 
constante, essa abordagem levaria um tempo de 9n,). Poderíamos conseguir algo melhor? 


Uma transformação 


Para projetar um algoritmo com tempo de execução o(n,), vamos considerar os dados de entrada de um modo 
ligeiramente diferente. Queremos determinar uma sequência de dias durante a qual a mudança líquida desde o primeiro 
dia até o último é máxima. Em vez de examinar os preços diários, vamos considerar a alteração diária nos preços, 
sendo que a mudança no dia i é a diferença entre os preços após o dia i - 1 e após o dia i. A tabela na Figura 4.1 
mostra essas mudanças diárias na última linha. Se tratarmos essa linha como um arranjo A, mostrado na Figura 4.3, 
vamos querer determinar o subarranjo não vazio contíguo a A cujos valores tenham a maior soma. Denominamos esse 
subarranjo contíguo subarranjo máximo. Por exemplo, no arranjo da Figura 4.3, o subarranjo máximo de A[1.. 16] 
é A[8.. 11], com soma 43. Assim, o mais interessante seria você comprar a ação imediatamente antes do dia 8 (isto é, 
após o dia 7) e vendê-la depois do dia 11, auferindo um lucro de $43 por ação. 


À primeira vista, essa transformação não ajuda. Ainda precisamos verificar (n — 1 »)- O(n2 ) subarranjos para um 


período de n dias. O Exercício 4.1-2 pede que você mostre que, embora o cálculo de um único subarranjo possa levar 
tempo proporcional ao comprimento do subarranjo, quando caleulamos todas as O(n,) somas de subarranjos, 
podemos organizar o cálculo de modo que cada soma de subarranjo leve o tempo O(1), dados os valores de somas de 
subarranjos calculados anteriormente, de modo que a solução de força bruta leva o tempo O(n,). 


l 2 3 4 9 6 fi 8 9 IO 11 12 13 14/15 16 
A |13/-3/-25]20 | -3 |-16|-23/ 18/20 /-7/12/-5|-22/15|-4/ 7 
o 


subarranjo máximo 


Figura 4.3 A mudança nos preços da ação como um problema de subarranjo máximo. Aqui, o subarranjo A[8.. 11], comsoma 43, tema 
maior soma de qualquer subarranjo contíguo do arranjo A. 


Portanto, vamos procurar uma solução mais eficiente para o problema do subarranjo máximo. Nesse processo, 
normalmente falaremos de “um” subarranjo máximo em vez de “o” subarranjo máximo, já que poderia haver mais de um 


subarranjo que alcance a soma máxima. 

O problema do subarranjo máximo é interessante somente quando o arranjo contém alguns números negativos. Se 
todas as entradas do arranjo fossem não negativas, o problema do subarranjo máximo não representaria nenhum 
desafio, já que o arranjo inteiro daria a maior soma. 


Uma solução utilizando divisão e conquista 


Vamos pensar em como poderíamos resolver o problema do subarranjo máximo usando a técnica de divisão e 
conquista. Suponha que queiramos determinar um subarranjo máximo do subarranjo A[low . . high]. O método de 
divisão e conquista sugere que dividamos o subarranjo em dois subarranjos, com tamanhos mais iguais dentro do 
possível. Isto é, determinamos o ponto médio, digamos mid, do subarranjo, e consideramos os subarranjos A[low .. 
mid] e Afmid + 1... high]. Como mostra a Figura 4.4(a), qualquer subarranjo contíguo Afi. . 7] de Allow .. high] 
deve encontrar-se exatamente em um dos seguintes lugares: 


* — inteiramente no subarranjo A[/ow . . mid], de modo que low <i<;j <mid, 
* — inteiramente no subarranjo Ajmid + 1... high], de modo que mid <i<j< high, ou 
* cruzando o ponto médio, de modo que low <i< mid <j < high. 


Portanto, um subarranjo máximo de A[low . . high] deve encontrar-se exatamente em um desses lugares. Na 
verdade, um subarranjo máximo de A[low . . high] deve ter a maior soma de todos os subarranjos inteiramente em 
Allow . . mid], inteiramente em Afmid + 1... high] ou cruzando o ponto médio. Podemos determinar subarranjos 
máximos de Allow . . mid] e Almid+l . . high] recursivamente porque esses dois subproblemas são instâncias 
menores do problema da determinação de um subarranjo máximo. Assim, resta apenas encontrar um subarranjo 
máximo que cruze o ponto médio e tomar um subarranjo que tenha a maior soma dos três. 

Podemos encontrar facilmente um subarranjo máximo que cruze o ponto médio em tempo linear do tamanho do 
subarranjo A[low . . high]. Esse problema não é uma instância menor de nosso problema original, porque há a 
restrição adicional de que o subarranjo que ele escolher deve cruzar o ponto médio. Como mostra a Figura 4.4(b), 
qualquer subarranjo que cruze o ponto médio é composto por dois subarranjos A[i .. mid] e Ajmid+1..j], onde 
low<i<midemid<j< high. Portanto, precisamos apenas encontrar subarranjos máximos da forma A[i.. mid] e 
Almid +1...3] e então combiná-los. O procedimento Finp-Max-Crossino-SuBarray toma como entrada o arranjo 4 e os 
índices low, mid e high, e retorna uma tupla que contém os índices que demarcam um subarranjo máximo que cruza o 
ponto médio, juntamente com a soma dos valores em um subarranjo máximo. 
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cruza o ponto médio Almid..j] 


pr 
baixo médio alto baixo i médio——————+ alto 
= mid + 1 ma pe oi" mid + 1 j 
inteiramente inteiramente Afi..mid] 
em A[low..mid] em Almid + 1..high] 


(a) (b) 


Figura 4.4 (a) Possíveis localizações de subarranjos de A[low.. high]: inteiramente em A[/ow . . mid ], inteiramente em Ajmid+1.. 
high] ou cruzando o ponto médio mid. (b) Qualquer subarranjo de A[/ow .. high] que cruze o ponto médio compreende dois 
subarranjos Ali ..mid]e Almid+1..j] ondelow<i<midemid<j< high. 


FinD-MAx-CROSSING-SUBARRAY(A, low, mid, high) 
1 left-sum = —oo 

2sum =0 

3 for i = mid downto low 

4 sum = sum + Afil 


5 if sum > left-sum 

6 left-sum = sum 
7 max-left = 1 

8 right-sum = —oo 

9sum =0 


10 forj = mid + 1 to high 

q sum = sum + Al] 

12 if sum > right-sum 

1B right-sum = sum 

14 max-right = j 

15 return (max-left, max-right, left-sum + right-sum) 


Esse procedimento funciona da seguinte maneira: as linhas 1-7 acham um subarranjo máximo da metade esquerda, 
Allow . . mid]. Visto que esse subarranjo deve conter A[mid], o laço for das linhas 3-7 inicia o índice i em mid e 
prossegue até low, de modo que todo subarranjo que ele considera é da forma A[i.. mid]. As linhas 1-2 inicializam as 
variáveis /eft-sum, que contêm a maior soma encontrada até então, e sum, que contém as somas das entradas em Afi . 
. mid]. Sempre que encontrarmos, na linha 5, um subarranjo Afi .. mid] com uma soma de valores maior do que left- 
sum, atualizaremos left-sum para a soma desse subarranjo na linha 6, e na linha 7 atualizaremos a variável max-left 
para registrar esse índice i. As linhas 8-14 funcionam de modo análogo para a metade direita, A[mid+1 .. high]. Aqui, 
o laço for das linhas 10-14 micia o índice ; em mid+1 e prossegue até high, de modo que todo subarranjo que ele 
considera é da forma Almid + 1..j]. Finalmente, a linha 15 retorna os índices max-left e max-right que demarcam 
um subarranjo máximo que cruza o ponto médio, juntamente com a soma left-sum+right-sum dos valores no 
subarranjo A[max-left . . max-right). 

Se o subarranjo A[low . . high] contiver n entradas (de modo que n = high - low + 1), afirmamos que a chamada 
FinD-Max-Crossin-SuBARRAY(A, low, mid, high) leva o tempo O(n). Visto que cada iteração de cada um dos dois laços 
for leva o tempo Q(1), precisamos apenas contar quantas iterações há no total. O laço for das linhas 3-7 faz mid - low 
+ 1 iterações e o laço for das linhas 10-14 faz high - mid iterações e, assim, o número total de iterações é 


(mid — low + 1) + (high — mid) = high — low + 1 
=. 


Com um procedimento Finn-Max-Crossinc-SuBarray de tempo linear à mão, podemos escrever pseudocódigo para 
um algoritmo de divisão e conquista para resolver o problema do arranjo máximo: 


FrnD-Max-CRossING-SUBARRAY(A,; low; high) 
lifhigh == low 
2 return (low; high;A[low]) /! caso base: só um elemento 
3 else mid = L(low + high)/2) 
4 (left-low, left-high, left-sum) = 
FrinD-MAxIMUM-SUBADRRAY(A, low, mid) 
> (right-low, right-high, right-sum) = 
FrnD-MAxIMUM-SUBARRAY(A, mid + 1, high) 


6 (cross-low, cross-high, cross-sum) = 
FrnD-MAx-CROSSING-SUBARRAY(A, low, mid, high) 

4 if Jeft-sum > right-sum e left-sum > cross-sum 

8 return (left-low, left-high, left-sum) 

9 elseif right-sum > left-sum e right-sum > cross-sum 

10 return (right-low, right-high, right-sum) 

1 else return (cross-low, cross-high, cross-sum) 


A chamada inicial FinD-Maximum-Susarrav(A, 1, 4. length) encontrará um subarranjo máximo de A[1..n]. 

Assim como Finp-Max-CrossiNG-SUBARRAY, O procedimento recursivo FinD-MAxiMum-SuBaRRAy retorna uma tupla que 
contém os índices que demarcam um subarranjo máximo, juntamente com a soma dos valores em um subarranjo 
máximo. A linha 1 testa o caso-base, no qual o subarranjo tem apenas um elemento. Um subarranjo que tenha apenas 
um elemento tem somente um subarranjo — ele mesmo — e, assim, a linha 2 retorna uma tupla com os índices de início 
e fim daquele único elemento, juntamente com seu valor. As linhas 3-11 tratam o caso recursivo. A linha 3 executa a 
parte da divisão, calculando o índice mid do ponto médio. Vamos nos referir ao subarranjo A[/low . . mid] como o 
subarranjo da esquerda e o subarranjo Afmid + 1... high] como o subarranjo da direita. Como sabemos que o 
subarranjo A[low . . high] contém no mínimo dois elementos, cada um dos subarranjos, o da direita e o da esquerda, 
deve ter no mínimo um elemento. As linhas 4 e 5 conquistam por encontrarem recursivamente subarranjos máximos 
dentro dos subarranjos da esquerda e da direita, respectivamente. 

As linhas 6-11 formam a parte de combinar. A linha 6 encontra um subarranjo máximo que cruza o ponto médio. 
(Lembre-se de que, como a linha 6 resolve um subproblema que não é uma instância menor do problema original, 
consideramos que ela está na parte de combinar.) A linha 77 testa se o subarranjo da esquerda contém um subarranjo 
que tenha a soma máxima, e a linha 8 retorna esse subarranjo máximo. Senão, a linha 9 testa se o subarranjo da direita 
contém um subarranjo que tenha a soma máxima, e a linha 10 retorna esse subarranjo máximo. Se nenhum dos 
subarranjos, o da direita ou o da esquerda, contiver um subarranjo que atinja a soma máxima, então um subarranjo 
máximo deve cruzar o ponto médio, e a linha 11 o retorna. 


Análise do algoritmo de divisão e conquista 


A seguir, montaremos uma recorrência que descreve o tempo de funcionamento do procedimento recursivo Finp 
MAxiMuM-SUBARRAY. Assim como fizemos na Seção 2.3.2, quando analisamos a ordenação por intercalação, adotamos 
aqui a premissa simplificadora de que o tamanho do problema original é uma potência de 2, de modo que os tamanhos 
de todos os subproblemas são números inteiros. Denotamos por T(n) o tempo de execução de FinD-Maximum-SUBARRAY 
para um subarranjo de n elementos. Para começar, a linha 1 adota tempo constante. O caso-base, quando n = 1, é 
fácil: a linha 2 leva tempo constante e, assim, 


T(1) = 0(1) (4.5) 


O caso recursivo ocorre quando n > 1. As linhas 1 e 3 levam tempo constante. Cada um dos subproblemas 
resolvidos nas linhas 4 e 5 trata de um subarranjo de n/2 elementos (visto que a premissa adotada é que o tamanho 
original do problema é uma potência de 2, fica garantido que n/2 é um inteiro) e por isso, despendemos o tempo 7(n/2) 


para resolver cada um deles. Como temos de resolver dois subproblemas — para o subarranjo da esquerda e para o 
subarranjo da direita —, a contribuição para o tempo de execução dada pelas linhas 4 e 5 chega a 2T(n/2). Como já 
vimos, a chamada a FinD-Max-Crossino-Susarray na linha 6 leva o tempo O(n). As linhas 7-11 levam somente o tempo 
(1). Portanto, para o caso recursivo, temos 


T(n) O(1) + 2T(n/2) + O(n) + O(1) 


= 2T(n/2) + O(n) (4.6) 


Combinando as equações (4.5) e (4.6), obtemos uma recorrência para o tempo de execução T(n) de Finp-Max- 
CROSSING-SUBARRAY : 


“JO() sen=1, 


T(n)= 
2T(n/2)+0(n) sen>l. 


(4.7) 


Essa recorrência é igual à recorrência (4.1) para a ordenação por intercalação. Como veremos pelo método 
mestre na Seção 4.5, a solução dessa recorrência é T(n) = O(n lg n). Também seria bom você rever a árvore de 
recursão na Figura 2.5 para entender por que a solução deve ser T(n) = O(n lg n). 

Assim, vemos que o método de divisão e conquista produz um algoritmo que é assintoticamente mais rápido do 
que o método da força bruta. Com a ordenação por intercalação, e agora o problema do subarranjo máximo, 
começamos a ter uma ideia do poder do método de divisão e conquista. Às vezes, ele produzirá o algoritmo 
assintoticamente mais rápido para um problema, e outras vezes podemos nos sair ainda melhor. Como mostra o 
Exercício 4.1-5, na verdade existe um algoritmo de tempo linear para o problema do subarranjo máximo, e esse 
algoritmo não usa o método de divisão e conquista. 


Exercícios 
4.1-1 O que FinD-Maximum-Susarray retorna quando todos os elementos de 4 são negativos? 


4.1-2 Escreva pseudocódigo para o método da força bruta de solução do problema do subarranjo máximo. Seu 
procedimento deve ser executado no tempo O(n,). 


4.1-3  Implemente em seu computador o algoritmo da força bruta e também o algoritmo recursivo para o problema 
do subarranjo máximo. Qual é o tamanho de problema n, que dá o ponto de cruzamento no qual o algoritmo 
recursivo supera o algoritmo da força bruta? Em seguida, mude o caso-base do algoritmo recursivo para usar 
o algoritmo de força bruta sempre que o tamanho do problema for menor que n,. Isso muda o ponto de 
cruzamento? 


4.1-4 Suponha que mudamos a definição do problema do subarranjo máximo para permitir que o resultado seja um 
subarranjo vazio, no qual a soma dos valores de um subarranjo vazio é 0. Como você mudaria qualquer dos 
algoritmos que não aceitam subarranjos vazios de modo a permitir que o resultado seja um subarranjo vazio? 


4.1-5 Use as seguintes ideias para desenvolver um algoritmo não recursivo de tempo linear para o problema do 
subarranjo máximo. Comece na extremidade esquerda do arranjo e prossiga em direção à extremidade 
direita, sem perder de vista o subarranjo máximo visto até aqui. Conhecendo um subarranjo máximo de A[1... 
j |, estenda a resposta para achar um subarranjo máximo que termine no índice ; + 1 usando a seguinte 
observação: um subarranjo máximo de A[1 ..j + 1] é um subarranjo máximo de A[1 ..j |] ou um subarranjo 
A[i..j + 1], para algum | <i<; + 1. Determine um subarranjo máximo da forma Afi..j+ 1] emtempo 
constante com base no conhecimento de um subarranjo máximo que termine no índice ;. 


4.2 ALGORITMO DE STRASSEN PARA MULTIPLICAÇÃO DE MATRIZES 


Se você já viu matrizes antes, provavelmente sabe como multiplicá-las. (Caso contrário, deve ler a Seção D.1 no 
Apêndice D.) Se 4 = (a;;) e B = (b;) são matrizes quadradas n x n, então no produto C = 4 x B, definimos a entrada 
Ci» para i,j = 1 2, ves, POr 


gs PRA E: (4.8) 
k=1 


Temos de calcular n, entradas de matrizes, e cada uma é a soma de n valores. O procedimento descrito a seguir 
toma as matrizes n x n A e Be as multiplica, retornando seu produto C. Consideramos que cada matriz tem um atributo 
rows (linhas), que dá o número de linhas na matriz. 

SQUARE-MATRIX-MULTIPLY(A,B) 

1 n=A-rows 

2 seja C uma nova matrizn x n 

3 fori=1ton 


a] forj=1 ton 

5 C; = 0) 

6 fork=1 ton 

/ o Mi Db, 
8 return C 


O procedimento Square-Marrix-MuLnrLy funciona da seguinte maneira: o laço for das linhas 3-7 calcula as entradas 
de cada linha i e, dentro de uma linha i dada, o laço for das linhas 4-7 calcula cada uma das entradas Ci» para cada 
coluna j. A linha 5 inicializa c; em O quando começamos a calcular a soma dada na equação (4.8), e cada iteração do 
laço for das linhas 6-7 acrescenta mais um termo da equação (4.8). 

Como cada um dos laços for triplamente aninhados executa exatamente n iterações, e cada execução da linha 7 
leva tempo constante, o procedimento Square-Marrix-MuLnrLy leva o tempo O(n,). 

É possível que a princípio você pense que qualquer algoritmo de multiplicação de matrizes tem de levar o tempo 
(n,), já que a definção natural de multiplicação de matrizes requer aquele mesmo tanto de multiplicações. Porém, você 
estaria errado: temos um modo de multiplicar matrizes no tempo o(n,). Nesta seção, veremos o notável algoritmo 
recursivo de Strassen para multiplicar matrizes n x n. O tempo de execução desse algoritmo é O(n,, 7), que 
demonstraremos na Seção 4.5. Visto que lg 7 encontra-se entre 2,80 e 2,81, o algoritmo de Strassen é executado no 
tempo O(n,,81), que é assintoticamente melhor do que o procedimento simples Square-Martri-MuLTPLY. 


Um algoritmo simples de divisão e conquista 


Por questão de simplicidade, quando usamos um algoritmo de divisão e conquista para calcular o produto de 
matrizes C = 4 : B, supomos que n é uma potência exata de 2 em cada uma das matrizes n x n . Adotamos essa 
premissa porque, em cada etapa da divisão, dividiremos matrizes n x n em quatro matrizes n/2 x n/2 e, considerando 
que n é uma potência exata de 2, fica garantido que, desde que n > 2, a dimensão n1/2 é um número inteiro. 

Suponha que repartimos cada uma das matrizes 4, B e C em quatro matrizes n/2 x n/2 


A A e K 
= n 12 Bi] CER C=| u “x (4.9) 
A, A, B, B, C 6, 
de modo que reescrevemos a equação C = 4 x B como 
CC, o A, Ay B, B, (4.10) 
Cl, An Ay B, B, 


A equação (4.10) corresponde às quatro equações 


A, B,, + Ay 
A, B, + Ay 
A, B, E Ay 
A, B, E? A, 22º 


Cada uma dessas quatro equações especifica duas multiplicações de matrizes n/2 x n/2 e a soma de seus produtos 
n/2 x n/2. Podemos usar essas equações para criar um algoritmo de divisão e conquista recursivo e direto: 
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FrnD-MAx-CROSSING-SUBARRAY(A,; low; high) 
Lifhigh == low 
2 return (low; high;A[low]) [| caso base: só um elemento 
3 else mid = | (low + high) /2] 
4 (left-low, left-high, left-sum) = 
FrnD-MAxIMUM-SUBADRRAY(A, low, mid) 
5 (right-low, right-high, right-sum) = 
FrnD-MAxIMUM-SUBARRAY(A, mid + 1, high) 
(cross-low, cross-high, cross-sum) = 
FrnD-MAx-CROSSING-SUBARRAY(A, low, mid, high) 
if left-sum > right-sum e left-sum > cross-sum 
return (left-low, left-high, left-sum) 
elseif right-sum > left-sum e right-sum > cross-sum 
0 return (right-low, right-high, right-sum) 
1 else return (cross-low, cross-high, cross-sum) 


a 


fi feio AO: OO NI 


Esse pseudocódigo camufla um detalhe de implementação sutil porém importante. Como repartimos as matrizes na 
linha 5? Se fôssemos criar 12 novas matrizes n/2 x n/2, gastaríamos o tempo O(n,) copiando entradas. Na verdade, 
podemos repartir matrizes sem copiar entradas. O truque é usar cálculos de índices. Identificamos uma submatriz por 
uma faixa de índices de linha e uma fáixa de índices de colunas da matriz original. Terminamos por representar uma 
submatriz de um modo um pouco diferente daquele que utilizamos para representar a matriz original, que é a sutileza que 


estamos camuflando. A vantagem é que, visto que podemos especificar matrizes por cálculo de índices, a execução da 
linha 5 leva apenas o tempo O(1) (embora veremos que, para o tempo de execução global, não faz diferença 
assintoticamente se copiamos ou repartimos no lugar). 

Agora, derivaremos uma recorrência para caracterizar o tempo de execução de Square-Marrix-MuLTIPLY-RECURSIVE. 
Seja T(n) o tempo para multiplicar duas matrizes n x n usando esse procedimento. No caso-base, quando n = 1, 
executamos apenas a única multiplicação escalar na linha 4 e, assim, 


T(1) = 0(1) (4.15) 


O caso recursivo ocorre quando n > 1. Como já discutimos, repartir as matrizes na linha 5 leva o tempo O(1) 
usando cálculo de índices. Nas linhas 6-9, chamamos recursivamente Square-MaTrIXx-MuLTIPLY-REcuRrsivE um total de oito 
vezes. Como cada chamada recursiva multiplica duas matrizes n/2 x n/2, o que contribui com T(n/2) para o tempo de 
execução global, o tempo que leva para todas as oito chamadas recursivas é 87(n/2). Também temos de levar em conta 
as quatro adições de matrizes nas linhas 6-9. Cada uma dessas matrizes contém n,/4 entradas e, portanto, cada uma 
das quatro adições de matrizes leva o tempo de O(n,). Visto que o número de adições de matrizes é uma constante, o 
tempo total gasto na soma das matrizes nas linhas 6-9 é O(n,). (Novamente, usamos o cálculo de índices para colocar 
os resultados das adições de matizes nas posições corretas da matriz C, com um acréscimo de tempo G(1) por 
entrada.) Portanto, o tempo total para o caso recursivo é a soma do tempo de partição, do tempo para todas as 
chamadas recursivas e do tempo de adição de matrizes resultantes das chamadas recursivas: 


T(n) O(1) + 87T(n/2) + O(n?) 


8T(n/2) + O(n?). (4.16) 


Note que, se implementássemos a partição copiando matrizes, o que custaria o tempo O(n,), a recorrência não 
mudaria e, por consequência, o tempo de execução global aumentaria somente por um fator constante. 
Combinando as equações (4.15) e (4.16) obtemos a recorrência para o tempo de execução de Square-MarrIx- 


MULTIPLY-RECURSIVE: 


“J9() sen=1; 


si (4.17) 
8T(n/2)+0O(n”) sen>l. 


T(n) 


Como veremos pelo método mestre na Seção 4.5, a solução da recorrência (4.17) é T(n) = O(n,). Assim, essa 
abordagem simples do método de divisão e conquista não é mais rápida do que o procedimento direto Square-MaTRIx- 
MULTIPLY. 

Antes de passarmos para o exame do algoritmo de Strassen, vamos revisar de onde vieram os componentes da 
equação (4.16). A partição de cada matriz n x n por cálculo de índice leva o tempo O(1), mas temos duas matrizes 
para repartir. Se bem que poderíamos dizer que a partição das duas matrizes leva o tempo O(2), a constante de 2 está 
incorporada na notação O. A soma de duas matrizes, cada uma, digamos, com k entradas, leva o tempo O(k). Visto 
que cada uma das matrizes que somamos tem n,/4 entradas, poderíamos dizer que a soma de cada par leva o tempo 
O(n,/4). Entretanto, novamente a notação O incorpora o valor constante de 1/4, e dizemos que somar duas matrizes 
n/4 x n/4 leva o tempo O(n,). Temos quatro dessas adições de matrizes e, mais uma vez, em vez de dizermos que elas 
levam o tempo O(4n,), dizemos que levam o tempo O(n,). (Uma observação óbvia é que poderíamos dizer que as 
quatro adições de matrizes levam o tempo O(4n,/4) e que 4n,/4 = n,, mas aqui o ponto a ressaltar é que a notação O 
incorpora fatores constantes, sejam quais forem.) Assim, terminamos com dois termos de O(n,), que podemos 
combinar em um só. 

Todavia, quando levamos em conta as oito chamadas recursivas, não podemos apenas incorporar o fator constante 
de 8. Em outras palavras, temos de dizer que, juntas, elas levam o tempo 87(n/2), em vez de apenas T(n/2). Podemos 
ter uma ideia do porquê examinando na árvore de recursão da Figura 2.5 a recorrência (2.1), que é idêntica à 
recorrência (4.7), com o caso recursivo T(n) = 2T(n/2) + E(n). O fator de 2 determinou quantos filhos cada nó da 


árvore tem, o que, por sua vez, determinou quantos termos contribuíram para a soma em cada nível da árvore. Caso 
ignorássemos o fator de 8 na equação (4.16) ou o fator de 2 na recorrência (4.1), a árvore de recursão seria apenas 
linear, em vez de “frondosa”, e cada nível contribuiria com apenas um termo para a soma. 

Portanto, tenha sempre em mente que, embora a notação assintótica incorpore fatores multiplicativos constantes, o 
mesmo não acontece com notação recursiva como T(n/2). 


O método de Strassen 


A chave para o método de Strassen é tornar a árvore de recursão ligeiramente menos frondosa. Isto é, em vez de 
efetuar oito multiplicações recursivas de n/2 x n/2 matrizes, ele efetua somente sete. O custo de eliminar uma 
multiplicação de matrizes será várias novas somas de matrizes n/2 x n/2, porém, ainda assim, somente um número 
constante de somas. Como antes, o número constante de somas de matrizes será incorporado pela notação O quando 
montarmos a equação de recorrência para caracterizar o tempo de execução. 

O método de Strassen não é, de modo algum, óbvio. (Esse talvez seja o maior eufemismo neste livro.) Ele tem 
quatro etapas: 


1. Dividir as matrizes de entrada 4 e B e a matriz de saída C em submatrizes n/2 x n/2, como na equação (4.9). Essa 
etapa leva um tempo e(1) por cálculo de índices, exatamente como o procedimento Square-Marrix-MuLTPLY- 
RECURSIVE. 

2. Criar 10 matrizes Si, S>, ... , Sio, cada uma das quais é n/2 x n/2 e é a soma ou diferença de duas matrizes criadas 
na etapa 1. Podemos criar todas as 10 matrizes no tempo O(n-). 

3. Usando as submatrizes criadas na etapa 1 e as 10 matrizes criadas na etapa 2, calcular recursivamente sete 
produtos de matrizes P,, P», ..., P;. Cada matriz P;é n/2 x n/2. 

4. Calcular as submatrizes desejadas Cn, Ci», Cr, C» da matriz resultado C somando e subtrando várias 
combinações das P;matrizes. Podemos calcular todas as quatro submatrizes no tempo O(n:). 


Veremos os detalhes das etapas 2-4 em instantes, mas já temos informações suficientes para montar uma 
recorrência para o tempo de execução do método de Strassen. Vamos considerar que tão logo o tamanho n da matriz 
atinja 1, efetuamos uma multiplicação escalar simples, exatamente como na linha 4 de Square-Marrix-MuLTIPLY-RECURSIVE. 
Quando n > 1, as etapas 1, 2 e 4 levam um tempo total de O(n,)e a etapa 3 requer que efetuemos sete multiplicações 
de matrizes n/2 x n/2. Por consequência, obtermos a seguinte recorrência para o tempo de execução T(n) do algoritmo 
de Strassen: 


“JO() sen=1; 


T(n)= ; 
7T(n/29)+O(n) sen>l. 


(4.18) 
Trocamos uma multiplicação de matrizes por um número constante de soma de matrizes. Assim que entendermos 
recorrências e suas soluções, veremos que, na verdade, essa troca resulta em um tempo de execução assintótico mais 


baixo. Pelo método mestre na Seção 4.5, a solução da recorrência (4.18) é T(n) = O(n,, 7). 
Agora passamos para a descrição dos detalhes. Na etapa 2, criamos as 10 matrizes a seguir: 


B, — By ? 
=An+Ap: 
= A Ago 
B,; e B,, ? 
= Ago 
=B, + B».» 
Ap — Ay: 
— Ban + By; 
dg = Ap — Ao o 
99 = By +Bp- 


Visto que devemos somar ou subtrair matrizes n/2 x n/2 10 vezes, essa etapa leva realmente o tempo O(n,) . 
Na etapa 3, multiplicamos recursivamente matrizes n/2 x n/2 sete vezes para calcular as seguintes matrizes 1/2 x 
n/2, cada uma das quais é a soma ou a diferença de produtos de submatrizes A e B: 


ON q dn Q NO mi 


“J 


Se e DS e O e O E O E O E E O 
| 


Qo 


PA, 5,4, :B,— A, Bo, 
P,-5,:B,-A4,:B, +A, Bo, 
P,=5,:B,=A,' By +Ay'By> 
P,-A,'5,-A»'By —Ay' By» 
P,=5,:5,-4,:B,+4,:B, +4,:B, +A,' Bo, 
P,-S,:5,=A,:B, + A, Bo —A,:By — Ay By, 
P,=SSo=An' By +An' Bo — Ay ' By — Ay Bo. 


Observe que as únicas multiplicações que precisamos executar são as que se encontram na coluna do meio dessas 
equações. A coluna do lado direito mostra apenas em quê esses produtos são iguais em termos das submatrizes 
originais criadas na etapa 1. 

A etapa 4 soma e subtrai as P, matrizes criadas na etapa 3 para construir as quatro submatrizes n/2 x n/2 do 
produto C. Começamos com 


A ao É a E 


Expandindo o lado direito, com a expansão de cada P, em sua própria linha e alinhando na vertical os termos 
cancelados, vemos que C,, é igual a 


AB Sr AB Es AB E AB 


— AB + À 


22 


By 


— AB, + AB, + AB 


— AB 2H 22 22 


Bs + AB 


12-21? 


A 


que corresponde à equação (4.11). 
De modo semelhante, fazemos 


Ee PTE 


e, portanto, C,, é iguala 


pt o 14 9a 
Ab + Pe cm ? 
correspondendo à equação (4.12). 
Fazer 
Cos = Pts 
toma C,, iguala 


og bas Y Liso 
o dA + dA 
Ads + no E 


correspondente à equação (4.13). 
Finalmente, fazemos 


=D rR, PP, 
de modo que C,, seja igual a 


AB, Es AB, + AB, q AB, 


- A..B + A.:B 


aa 


AB -AB.+A,.B + A,:B 


Ms é é ti qu 2a: 2,4 à Udo 


AB + A,:B 


2 Po pi a big 


que corresponde à equação (4.14). No total, somamos ou subtraímos matrizes n/2 x n/2 oito vezes na etapa 4 e, 
portanto, essa etapa leva de fato o tempo O(n,) . 

Assim, vemos que o algoritmo de Strassen, que compreende as etapas 1-4, produz o produto correto de matrizes 
e que a recorrência (4.18) caracteriza seu tempo de execução. Como veremos na Seção 4.5 que a solução dessa 


recorrência é T(n) = O(n, 7), o método de Strassen é assintoticamente mais rápido do que o procedimento direto 
Square-MaTrIx-MuLnPLY. Às notas ao final deste capítulo discutem alguns dos aspectos práticos do algoritmo de Strassen. 


Exercícios 


4.2-1 


4.2-2 


4.2-3 


4.2-4 


4.2-5 


4.2-6 


4.2-7 


4.3 


Observação: Embora os Exercícios 4.2-3, 4.2-4 e 4.2-5 tratem de variantes do algoritmo de Strassen, você 
deve ler a Seção 4.5 antes de tentar resolvê-los. 


Use o algoritmo de Strassen para calcular o produto de matrizes 


13168 
7/9142 


Mostre o seu trabalho. 
Escreva pseudocódigo para o algoritmo de Strassen. 


Como você modificaria o algoritmo de Strassen para multiplicar matrizes n x n nas quais n não é uma potência 
exata de 2? Mostre que o algoritmo resultante é executado no tempo O (n,, 7). 


Qual é o maior k tal que, se você puder multiplicar matrizes 3 x 3 usando k multiplicações (sem considerar 
comutatividade de multiplicação), poderá multiplicar matrizes n X n no tempo O(n,, 7)? Qual seria o tempo de 
execução desse algoritmo? 


V. Pan descobriu um modo de multiplicar matrizes 68 x 68 usando 132.464 muiltiplicações, um modo de 
multiplicar matrizes 70 x 70 usando 143.640 multiplicações e um modo de multiplicar matrizes 72 x 72 
usando 155.424 multiplicações. Qual é o método que produz o melhor tempo de execução assintótico quando 
usado em um algoritmo de divisão e conquista para multiplicação de matrizes? Compare-o com o tempo do 
algoritmo de Strassen. 


Com que rapidez é possível multiplicar uma matriz kn x n por uma matriz n x kn usando o algoritmo de 
Strassen como sub-rotina? Responda à mesma pergunta invertendo a ordem das matrizes de entrada. 


Mostre como multiplicar os números complexos a + bi e c + di usando apenas três multiplicações de números 
reais. O algoritmo deve tomar a, b, c e d como entrada e produzir o componente real ac - bd e o componente 
imaginário ad + bc separadamente. 


Méropo DE SUBSTITUIÇÃO PARA RESOLVER RECORRÊNCIAS 


Agora, que já vimos como as recorrências caracterizam os tempos dos algoritmos de divisão e conquista, 
aprenderemos como resolver recorrências. Começamos esta seção com o método de “substituição”. 
O método de substituição para resolver recorrências envolve duas etapas: 


1. Arriscar um palpite para a forma da solução. 
2. Usar indução para determinar as constantes e mostrar que a solução funciona. 


Substituímos a finção pela solução suposta na primeira etapa quando aplicamos a hipótese indutiva a valores 
menores; daí o nome “método de substituição”. Esse método é poderoso, mas temos de adivinhar a forma da resposta 


para aplicá-lo. 
Podemos usar o método de substituição para estabelecer limites superiores ou inferiores para uma recorrência. 
Como exemplo, vamos determinar um limite superior para a recorrência 


T(n) = 2T(n/2) + n, (4.19) 


que é semelhante às recorrências (4.3) e (4.4). Arriscamos o palpite de que a solução é T(n) = O(n lg n). O método de 
substituição requer que provemos que T(n) < cn lg n para uma escolha apropriada da constante c > 0. Começamos 
considerando que esse limite se mantém válido para todo m <n positivo, em particular para 1/2, o que produz T (n/2) 
<cn/2 le(n/2). Substituindo na recorrência obtemos 


T(n) < 2cln/2]lg(n/2))+n 
< cnlg(n/2)+n 
= enlgn-enle2+4n 
- lena 
< cnlgn, 


onde a última etapa é válida desde que c > 1. 

Agora, a indução exige que mostremos que nossa solução se mantém válida para as condições de contorno. 
Normalmente, fazemos isso mostrando que as condições de contorno são adequadas como casos-base para a prova 
indutiva. No caso da recorrência (4.19), devemos mostrar que podemos escolher a constante c suficientemente grande 
de modo que o limite T(n) < cn lg n também funcione para as condições de contorno. Às vezes, essa exigência pode 
gerar problemas. Vamos supor, como argumento, que T(1) = 1 seja a única condição de contorno da recorrência. 
Então, para n = 1,0 limite 7(n) < cn lg n produz T(I) < c 1 lg 1 = 0, o que está em desacordo com T(1) = 1. 
Consequentemente, o caso-base de nossa prova indutiva deixa de ser válido. 

Podemos superar esse obstáculo para provar uma hipótese indutiva para uma condição de contorno específica 
com apenas um pouco mais de esforço. Por exemplo, na recorrência (4.19), tiramos proveito de notação assintótica 
que só exige que provemos que T(n) < cn lg n para n > n,, onde n, é uma constante de nossa escolha. Mantemos a 
importuna condição de contorno T(l) = 1, mas não a consideramos na prova indutiva. Fazemos isso primeiro 
observando que, para n > 3, a recorrência não depende diretamente de T(1). Desse modo, podemos substiturr T(1) por 
T(Q2) e T(3) como os casos-base na prova indutiva fazendo n, = 2. Observe que fazemos uma distinção entre o caso- 
base da recorrência (n = 1) e os casos-base da prova indutiva (n = 2 en = 3). Com T(1) = 1, derivamos da 
recorrência que T(2) = 4 e T(3) = 5. Agora podemos concluir a prova indutiva de T(n) < cn lgn para alguma constante 
c > 1 escolhendo c suficientemente grande de modo que TO)<c21g2e T(3)<c3 lg3. Como observamos, qualquer 
valor de c > 2 é suficiente para que os casos-base de n = 2 e n = 3 sejam válidos. Para a maioria das recorrências que 
examinaremos, estender as condições de contorno para fazer a hipótese indutiva funcionar para n pequeno é um 
procedimento direto, e nem sempre elaboraremos explicitamente os detalhes. 


Como dar um bom palpite 


Infelizmente, não há nenhum modo geral para adivinhar as soluções corretas para recorrências. Arriscar um palpite 
para uma solução exige experiência e, ocasionalmente, criatividade. Entretanto, por sorte, você pode usar a heurística 
para ajudá-lo a se tornar um bom adivinhador. Além disso, poderá também usar árvores de recursão, que veremos na 
Seção 4.4, para gerar bons palpites. 

Se uma recorrência for semelhante a alguma que você já tenha visto antes, será razoável supor uma solução 
semelhante. Como exemplo, considere a recorrência 


T(m)=2T(n/2 + 11) + n, 


que parece difícil devido ao “17” acrescentado ao argumento de T no lado direito. Porém, intuitivamente, esse termo 
adicional não pode afetar substancialmente a solução para a recorrência. Quando n é grande, a diferença entre n/2 e 
n/2 + 17 não é tão grande: ambos cortam n quase uniformemente pela metade. Em consequência disso, arriscamos T(n) 
= O(n lg nn), o que você pode verificar que é correto usando o método de substituição (veja Exercício 4.3.6). 

Um outro modo de dar um bom palpite é comprovar limites superiores e inferiores frouxos para a recorrência e, 
então, reduzir a faixa de incerteza. Por exemplo, poderíamos começar com um limite mferior de T(n) = (n) para a 
recorrência (4.19), já que temos o termo n na recorrência e podemos comprovar um limite superior inicial de T(n) = 
O(n,). Então, podemos diminuir gradualmente o limite superior e elevar o limite inferior, até convergirmos na solução 
correta, assintoticamente justa, T(n) = O(n lg nn). 


Sutilezas 


Às vezes, você pode dar um palpite correto para um limite assintótico para a solução de uma recorrência mas, por 
alguma razão, a matemática não consegue funcionar na indução. Em geral, observamos que a hipótese indutiva não é 
suficientemente forte para comprovar o limite apontado. Se você revisar seu palpite subtraindo um termo de ordem mais 
baixa quando chegar a um impasse como esse, a matemática frequentemente funcionará. 

Considere a recorrência 


Ela) = Pln/21) + Tln/2h +41. 


Adivinhamos que a solução é T(n) = O(n), e tentamos mostrar que T(n) < cn para uma escolha adequada da 
constante c. Substituindo nosso palpite na recorrência, obtemos 


T(n) < cln/2]4+cln/2]+1 
= cn+1, 


o que não implica T(n) < cn para qualquer escolha de c. Poderíamos ficar tentados a experimentar um palpite maior, 
digamos T(n) = O(n,). Embora possamos fazer esse palpite maior funcionar, nosso palpite original T(n) = O(n) é 
correto. Porém, para mostrar que ele é correto, temos de fazer uma hipótese indutiva mais forte. 

Intuitivamente, nosso palpite quase correto é: a única diferença é a constante 1, um termo de ordem mais baixa. 
Apesar disso, a indução não funciona, a menos que provemos a forma exata da hipótese indutiva. Superamos nossa 
dificuldade subtraindo um termo de ordem mais baixa de nosso palpite anterior. Nosso novo palpite é T(n) < cn - d, 
onde d > 0 é uma constante. Agora temos 


Fm) (cln/2]-dD+(cln/21-dD)+1 
= en-2d41 
nd cn-d, 


desde que d > 1. Como antes, devemos escolher a constante c suficientemente grande para lidar com as condições de 
contorno. 

Você pode achar que a ideia de subtrair um termo de ordem mais baixa é anti-intuitiva. Afinal, se a matemática não 
funciona, o certo não seria aumentar nosso palpite? Não necessariamente! Quando queremos provar um limite superior 
por indução, na verdade pode ser mais difícil provar que um limite inferior mais fraco é válido porque, para provar um 
limite mais fraco, temos de usar na prova, indutivamente, o mesmo limite mais fraco. Nesse nosso exemplo, quando a 
recorrência tem mais de um termo recursivo, temos de subtrair o termo de ordem mais baixa do limite proposto uma vez 
por termo recursivo. No exemplo anterior, subtraímos a constante d duas vezes, uma vez para o termo T(n/2) e uma vez 
para o termo T(n/2). Terminamos com a desigualdade T(n) < cn - 2d + 1, e foi fácil encontrar valores de d que 
tornassem cn - 2d + 1 menor ou iguala cn - d. 


Como evitar armadilhas 
É fácil errar na utilização da notação assintótica. Por exemplo, na recorrência (4.19), podemos “provar” falsamente 
que T(n) = O(n), supondo T(n) < cn e, então, argumentando que 
T(n) 2(cln/2) +n 
Eu = n 
O(n) , < errado!! 


IA IA 


visto que c é uma constante. O erro é que não provamos a forma exata da hipótese indutiva, isto é, que T(n) < cn. 
Portanto, provaremos explicitamente que 7(n) < cn quando quisermos mostrar que T(n) = O(n). 


Como trocar variáveis 


Ás vezes, um pouco de manipulação algébrica pode tornar uma recorrência desconhecida semelhante a alguma que 
você já viu antes. Como exemplo, considere a recorrência 


T(n)= 2T(| vn |) +Ign, 


que parece dificil. Entretanto, podemos simplificar essa recorrência com uma troca de variáveis. Por conveniência, não 
nos preocuparemos com arredondar valores, como Vn, para que fiquem inteiros. Renomear m = lg n produz 


T(2") = 2T (2) + mm. 
Agora podemos renomear S(m) = T(2m) para produzir a nova recorrência 
S(m) = 2S(m/2) + mm, 
que é muito semelhante à recorrência (4.19). De fato, essa nova recorrência tem a mesma solução: S(m) = O(m lg m). 
Voltando a trocar S(m) por T(n), obtemos T(n) = T(Qm) = S(m) = O(m lg m) = Og n lg lg nn). 
Exercícios 
4.3-1 Mostre que a solução de T(n) = T(n - 1) +n é O(n,). 
4.3-2 Mostre que a solução de T(n) = T('n/2) + 1 é O(lg n). 


4.3-3 Vimos que a solução de T(n) = 2T(n/2) + n é On lg n). Mostre que a solução dessa recorrência é também (n 
lg n). Conclua que a solução é O(n lg n). 


4.3-4 Mostre que, formulando uma hipótese indutiva diferente, podemos superar a dificuldade com a condição de 
contorno T(1) = 1 para a recorrência (4.19) sem ajustar as condições de contorno para a prova indutiva. 


4.3-5 Mostre que O(n lg n) é a solução para a recorrência “exata” (4.3) para a ordenação por intercalação. 
4.3-6 Mostre que a solução para T(n) = 2T(n/2 + 17) +n é O(n lg n). 


4.3-7 Usando o método mestre da Seção 4.5, você pode mostrar que a solução para a recorrência T(n) = 47(n/3) 
+ né T(n) = O(n, 34). Mostre que uma prova de substituição que considere T(n) < cn, 4 falha. Então, 
mostre como subtrair um termo de ordem mais baixa para fazer com que uma prova de substituição funcione. 


4.3-8 Usando o método mestre da Seção 4.5, você pode mostrar que a solução para a recorrência T(n) = 47(n/2) 
+n é T(n) = O(n,). Mostre que uma prova de substituição que considere T(n) < cn, falha. Então, mostre 
como subtrair um termo de ordem mais baixa para fazer com que uma prova de substituição funcione. 


4.3-9 Resolva a recorrência T(n) = 37(Nn )+ log n fazendo uma troca de variáveis. Sua solução deve ser 
assintoticamente justa. Não se preocupe com saber se os valores são inteiros. 


4.4 MéroDo DA ÁRVORE DE RECURSÃO PARA RESOLVER RECORRÊNCIAS 


Embora você possa usar o método de substituição para obter uma prova sucinta de que uma solução para uma 
recorrência é correta, às vezes, é difícil apresentar um bom palpite. Traçar uma árvore de recursão, como fizemos em 
nossa análise da recorrência da ordenação por intercalação na Seção 2.3.2, é um modo direto para dar um bom 
palpite. Em uma árvore de recursão, cada nó representa o custo de um único subproblema em algum lugar no conjunto 
de invocações de função recursiva. Somamos os custos em cada nível da árvore para obter um conjunto de custos por 
nível e depois somamos todos os custos por nível para determinar o custo total de todos os níveis da recursão. 

Uma árvore de recursão é mais bem usada para gerar um bom palpite, que é então verificado pelo método de 
substituição. Ao usar uma árvore de recursão para gerar um bom palpite, muitas vezes você pode tolerar um pouco de 
“desleixo”, já que verificará seu palpite mais tarde. Porém, se você for muito cuidadoso ao desenhar uma árvore de 
recursão e somar os custos, poderá usar uma árvore de recursão como prova direta de uma solução para uma 
recorrência. Nesta seção, usaremos árvores de recursão para gerar bons palpites e, na Seção 4.6, utilizaremos árvores 
de recursão diretamente para provar o teorema que forma a base do método mestre. 

Por exemplo, vejamos como uma árvore de recursão daria um bom palpite para a recorrência T(n) = 3T(n/4) + 
O(n,). Começamos focalizando a determinação de um limite superior para a solução. Como sabemos que pisos e tetos 
normalmente não têm importância na solução de recorrências (esse é um exemplo de desleixo que podemos tolerar), 
criamos uma árvore de recursão para a recorrência T(n) = 3T(n/4) + cn,, tendo explicitado o coeficiente constante 
implícito c > 0. 

A Figura 4.5 mostra como derivamos a árvore de recursão para T(n) = 37(n/4) + cn,. Por conveniência, supomos 
que n é uma potência exata de 4 (outro exemplo de desleixo tolerável) de modo que os tamanhos de todos os 
subproblemas são inteiros. A parte (a) da figura mostra T(n) que, na parte (b), expandimos para uma árvore equivalente 
que representa a recorrência. O termo cn, na raiz representa o custo no nível superior da recursão, e as três subárvores 
da raiz representam os custos incorridos pelos subproblemas de tamanho n/4. A parte (c) mostra a continuação desse 
processo em uma etapa posterior representada pela expansão de cada nó com custo T(n/4) da parte (b). O custo para 
cada um dos três filhos da raiz é c(n/4)2. Continuamos a expandir cada nó na árvore, desmembrando-o em suas partes 
constituintes conforme determinado pela recorrência. 

Visto que os tamanhos dos subproblemas diminuem por um fator de 4 toda vez que descemos um nível, a certa 
altura devemos alcançar uma condição de contorno. A que distância da raiz nós a encontramos? O tamanho do 
subproblema para um nó na profundidade i é n/4i. Desse modo, o tamanho do subproblema chega a n = 1 quando n/4i 
= 1 ou, o que é equivalente, quando i = log! n. Assim, a árvore tem log4 n + 1 níveis (nas profundidades 0, 1, 2,..., 
logs n). 

Em seguida, determinamos o custo em cada nível da árvore. Cada nível tem três vezes mais nós que o nível acima 
dele, portanto o número de nós na profundidade i é 3i. Como os tamanhos dos subproblemas se reduzem por um fator 
de 4 para cada nível que descemos a partir da raiz, cada nó na profundidade i, para i= 0, 1,2,..., log! n - 1, temo 
custo de c(n/4'2 . Multiplicando, vemos que o custo total para todos os nós na profundidade i, para i = 0, 1,2,. .., log! 
n- 1, é 3ic(n/42 = (3/16)icn,. O nível inferior, na profundidade log, n, tem 3/04, = n,43 nós, e cada um deles 
contribui com o custo T(1), para um custo total de nç43T(1), que é O(n,,43), já que supomos que T(1) é uma 
constante. 
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Figura 4.5 Construção de uma árvore de recursão para a recorrência T(n) = 37(n/4) + cn, . A parte (a) mostra T (n), que expande-se 
progressivamente em (b)-(d) para formar a árvore de recursão. A árvore completamente expandida na parte (d) tem altura logsn (ela tem 
logsn + 1 níveis). 


Agora somamos os custos em todos os níveis para determinar o custo da árvore inteira: 


- log, n—1 
T(n) — ab E ads Ea cn? EPE, fa cn? + (nº?) 
log, n—1 i 
= da SL + (nºs) 
=o 116 


log,n = 
4 EPI +O(n"sº) — (pela equação (A.5)). 


(3/16)-1 


Esta última fórmula parece um pouco confusa até percebermos que, mais uma vez, é possível tirar proveito de uma 
certo desleixo e usar uma série geométrica decrescente infinita como um limite superior. Retrocedendo uma etapa e 


aplicando a equação (A.6), temos 


log, n—1 i 
T(n) = 5 | + oque) 


=o 116 
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Assim, derivamos um palpite de T(n)=O(n,) para nossa recorrência original T(n)=3T(n/4)+ O(n,). Nesse exemplo, 
os coeficientes de cn, formam uma série geométrica decrescente e, pela equação (A.6), a soma desses coeficientes é 
limitada na parte superior pela constante 16/13. Visto que a contribuição da raiz para o custo total é cn,, a raiz contribui 
com uma fração constante do custo total. Em outras palavras, o custo da raiz domina o custo total da árvore. 

De fato, se O(n,) é realmente um limite superior para a recorrência (como verificaremos em breve), ele deve ser 
um limite justo. Por quê? A primeira chamada recursiva contribui com o custo O(n,), então (n,) deve ser um limite 
inferior para a recorrência. 

Agora podemos usar o método de substituição para verificar que nosso palpite era correto, isto é, T(n) = O(n,) é 
um limite superior para a recorrência T(n) = 3T(n/4) + O(n,). Queremos mostrar que T(n) < dn, para alguma constante 
d > 0. Usando a mesma constante c > O de antes, temos 


T(n) 3T ([n / 4) +cn 
3d |n/ 4f +en” 
3d(n/4) +en? 
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onde a última etapa é válida desde que d > (16/13)c. 
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Em outro exemplo mais complicado, a Figura 4.6 mostra a árvore de recursão para 
T(n) = T(n/3) + T(2n/3) + O(n). 


(Novamente, omítimos as funções piso e teto por simplicidade.) Como antes, c representa o fator constante no 
termo O(n). Quando somamos os valores em todos os níveis da árvore de recursão, obtemos um valor de cn para cada 
nível. O caminho simples mais longo da raiz até uma folha é n > (23)n > (282, > ... > 1. Visto que (2/3) = 1 
quando k = log, n, a altura da árvore é log3/2 n 

Intuitivamente, esperamos que a solução para a recorrência seja, no máximo, o número de níveis vezes o custo de 
cada nível ou O(cn log32 n) = O(n lg n). Entretanto, a Figura 4.6 mostra apenas os níveis superiores da árvore de 
recursão, e nem todo nível da árvore contribui com um custo cn. Considere o custo das folhas. Se essa árvore de 
recursão fosse uma árvore binária completa de altura l0g3/2 n, haveria 2103/21 = n log3/2 2 folhas. Como o custo de cada 
folha é uma constante, o custo total de todas as folhas será O(n, 3/2 2) que, visto que log3'2 2 é uma constante 
estritamente maior do que 1, é (n lg n). Contudo, essa árvore de recursão não é uma árvore binária completa e, por 
isso, ela tem menos de Mog?!? 2 folhas. Além do mais, à medida que descemos em relação à raiz, mais e mais nós 
internos estão ausentes. Consequentemente, níveis mais próximos da parte inferior da árvore de recursão contribuem 
com menos de cn para o custo total. Poderíamos desenvolver uma contabilidade precisa de todos os custos, mas 
lembre-se de que estamos apenas tentando propor um palpite para usar no método de substituição. Vamos tolerar o 
desleixo e tentar mostrar que um palpite O(n lg nn) para o limite superior é correto. 


Ed na 
c(3) ai someone: rim 
log, .n f N 
do) A) AB) AE) cm om 


1 N 1 N lj N 1 ! 
1 N ! N ! ! 1 ) 
] ) 1 N ! ] ! ) 


Total: O(n lg n) 


Figura 4.6 Uma árvore de recursão para a recorrência T(n)=T (n/3)+T (2n/3)+ cn. 


De fato, podemos usar o método de substituição para verificar que O(n lg n) é um limite superior para a solução da 
recorrência. Mostramos que T(n) < dn lg n, onde d é uma constante positiva adequada. Temos 


< T(n/3) + TQ2n/3) + cn 
< d(n/3) Ig(n/3) + d(2n/3) le(Q2n/3) + cn 
— (d(n/3) Ign — d(n/3) 1g 3) 
+ (d(2n/3) Ign — d(2n/3) Ig(3/2) + cn 

= dn lg n — d((n/3) lg 3 + (2n/3) 1g(3/2)) + cn 

dn lg n — d((n/3) lg 3 + (2n/3) 1g3 — (2n/3) 182) + cn 
= dn lg n — dn(lg3 — 2/3) + cn 
< dn gn, 


desde que d > c/(lg 3 - (2/3)). Assim, não tivemos de executar uma contabilidade de custos mais precisa na árvore de 


recursão. 
Exercícios 
4.4-1 Use uma árvore de recursão para determinar um bom limite superior assintótico para a recorrência T(n) = 
37T(n/2) + n. Use o método de substituição para verificar sua resposta. 
4.4-2 Use uma árvore de recursão para determinar um bom limite superior assintótico para a recorrência T(n) = 
T(n/2) + n,. Use o método de substituição para verificar sua resposta. 
4.4-3 Use uma árvore de recursão para determinar um bom limite superior assintótico para a recorrência T(n) = 
4T(n/2 + 2) + n. Use o método de substituição para verificar sua resposta. 
4.4-4 Use uma árvore de recursão para determinar um bom limite superior assintótico para a recorrência T(n) = 
2T(n - 1) + 1. Use o método de substituição para verificar sua resposta. 
4.4-5 Use uma árvore de recursão para determinar um bom limite superior assintótico para a recorrência T(n) = T(n 
- D+ T(n/2) + n. Use o método de substituição para verificar sua resposta. 
4.4-6  Demonstre que a solução para a recorrência T(n) = T(n/3) + T(Qn/3) + cn, onde c é uma constante, é (n lg 
n), apelando para uma árvore de recursão. 
4.4-7 Trace a árvore de recursão para T(n) = 4T(1n/2) + cn, onde c é uma constante, e forneça um limite assintótico 
restrito para a sua solução. Verifique o limite pelo método de substituição. 
4.4-8 Use uma árvore de recursão para dar uma solução assintoticamente justa para a recorrência T(n) = T(n - a) + 
T(a) + cn, ondea> 1 ec> 0 são constantes. 
4.4-9 Use uma árvore de recursão para dar uma solução assintoticamente justa para a recorrência T(n) = T(con) + 


T(( - o)n) + cn, onde a é uma constante no intervalo O <a < 1 ec> 0 também é uma constante. 


4.5 MéroDo MESTRE PARA RESOLVER RECORRÊNCIAS 


O método mestre fornece uma “receita” para resolver recorrências da forma 


T(n) =aT(n/b) + f(n), (4.20) 


ondea> 1 eb>1 são constantes e f(n) é uma função assintoticamente positiva. Para utilizar o método mestre você 
terá de memorizar três casos, mas poderá resolver muitas recorrências com grande facilidade, muitas vezes sem lápis e 


papel 


A recorrência (4.20) descreve o tempo de execução de um algoritmo que divide um problema de tamanho n em a 
subproblemas, cada um de tamanho n/b, onde a e b são constantes positivas. Os a subproblemas são resolvidos 
recursivamente, cada um no tempo T(n/b). A finção f(n) abrange o custo de dividir o problema e combinar os 
resultados dos subproblemas. Por exemplo, a recorrência que surge do algoritmo de Strassen tema = 7,b =2, ef(n) = 
O(n,). 

Por questão de correção técnica, na realidade a recorrência não está bem definida porque n/b poderia não ser um 
inteiro. Porém, substituir cada um dos a termos T(n/b) por T (n/b) ou T (n/b) não afetará o comportamento assintótico 
da recorrência. (Provaremos essa afirmação na próxima seção.) Portanto, normalmente consideramos conveniente 
omitir as funções piso e teto quando escrevemos recorrências de divisão e conquista dessa forma. 


O teorema mestre 


O método mestre depende do teorema a seguir. 


Teorema 4.1 (Teorema mestre) 


Sejama > 1 eb>1 constantes, seja f(n) uma finção e seja T(n) definida no domínio dos números inteiros não 
negativos pela recorrência 


T(n) = aT(n/b) + fln), 


onde interpretamos que n1/b significa n/b oun/b. Então, T(n) tem os seguintes limites assintóticos: 

1. Sef(n) = O(nvs a) para alguma constante > 0, então T(n) = O(s a). 

2. Sef(n) = O(n%g a), então T(n) = O(nvso a lg n). 

3. Sefin) = (nos «+) para alguma constante > 0, e se afln/b) < cf(n) para alguma constante c < 1 e todos os n 
suficientemente grandes, então T(n) = O(f(n)). 


Antes de aplicar o teorema mestre a alguns exemplos, vamos dedicar algum tempo tentando entender o que ele 
significa. Em cada um dos três casos, comparamos a função f(n) com a função nº 4. Intuitivamente, a maior das duas 
funções determina a solução para a recorrência. Se, como no caso 1, a função Mog? 9 for a maior, então a solução é 
Tn) = O(nçe 4). Se, como no caso 3, a função f(n) for a maior, então a solução é T(n) = O(f(n)). Se, como no caso 
2, as duas funções tiverem o mesmo tamanho, multiplicamos por um fator logarítmico e a solução é T(n) = O(n, « lg 
n) = (fu) lg n). 

Além dessa intuição, você precisa estar ciente de alguns detalhes técnicos. No primeiro caso, f(n) não só tem de 
ser menor que 11,» 4, mas deve ser polinomialmente menor. Isto é, f(n) deve ser assintoticamente menor que 11,» a 
por um fator n para alguma constante | > 0. No terceiro caso, f(n) não apenas deve ser maior que n, 4, ela tem de 
ser polinomialmente maior e, além disso, satisfazer à condição de “regularidade” expressa por af(n/b) < cf(n). Essa 
condição é satisfeita pela maioria das funções polinomialmente limitadas que encontraremos. 

Observe que os três casos não abrangem todas as possibilidades para f(n). Existe uma lacuna entre os casos 1 e 2 
quando f(n) é menor que n,,4 4, mas não polinomialmente menor. De modo semelhante, há uma lacuna entre os casos 2 
e 3 quando ftn) é maior que n,» 4, mas não polinomialmente maior. Se a função f(n) cair em uma dessas lacunas ou se 
a condição de regularidade no caso 3 deixar de ser válida, o método mestre não poderá ser usado para resolver a 
recorrência. 


Como usar o método mestre 


Para usar o método mestre, simplesmente determinamos qual caso (se houver algum) do teorema mestre se aplica 
€ anotamos a resposta. 


Como primeiro exemplo, considere 
T(n) = 9T(n/3) + n. 


Para essa recorrência, temos a = 9, b = 3, ftn) =n e, portanto, temos que 1,» « = nº = O(n,). Visto que f(n), 
onde = 1, podemos aplicar o caso 1 do teorema mestre e concluir que a solução é T(n) = O(n,). 
Agora, considere 


T(n) = TQn/3) + 1, 


na quala = 1,b=3/2,fn)=l em =m321=n= 1. Aplica-se o caso 2, já que f(n) = Om, 4) = O(1) e, 
assim, a solução para a recorrência é T(n) = O(lg n). 
Para a recorrência 


T(n)=3n/4)+nln, 


temosa =3,b=4,fln)=nlgnençta =? = O(nç,793). Visto que f(n) = (n4 3+) , onde = 0,2, aplicamos o 
caso 3 se pudermos mostrar que a condição de regularidade é válida para f(n). Para n suficientemente grande, temos 
que af(n/b) = 3(n/4) le(n/4) < (3/4)n lg n = cfln) para c = 3/4. Consequentemente, pelo caso 3, a solução para a 
recorrência é T(n) = O(n lg n). 

O método mestre não se aplica à recorrência 


T(n)=2n/2) + n gn, 


ainda que aparentemente ela tenha a forma apropriada:a =2,b=2,fn)=nlgnenç&4=n. Você poderá se enganar 
e achar que o caso 3 deve se aplicar, já que f(n) = n lg n é assmtoticamente maior que nº 4 =n. O problema é que ela 
não é polinomialmente maior. A razão fln)/nçe 4 = (n lg n)n = Ig n é assintoticamente menor que n para qualquer 
constante positiva . Consequentemente, a recorrência cai na lacuna entre o caso 2 e o caso 3. (Veja uma solução no 
Exercício 4.6-2.) 

Vamos usar o método mestre para resolver as recorrências que vimos nas Seções 4.1 e 4.2. A recorrência (4.7), 


T(n) = 2T(n/2) + On), 


caracteriza os tempos de execução do algoritmo de divisão e conquista para o problema do subarranjo máximo e 
também para a ordenação por intercalação. (Como de praxe, omitiremos a declaração do caso-base na recorrência.) 
Aqui, temos a = 2, b = 2, ftn) = O(n) e, assim, temos que n,,,» a = n5,2 2=n. O caso 2 se aplica, visto que f(n) = 
O(n) e, portanto, temos a solução T(n) = O(n lg nn). 

A recorrência (4.17), 


T(n) = 8T(n/2) = O(n,), 


descreve o tempo de execução do primeiro algoritmo de divisão e conquista que vimos para multiplicação de matrizes. 
Agora, temos a = 8,b=2 e fln) = O(n,) e, assim, nb a = ny 8=n,. Visto que n; é polinomialmente maior que f(n) 
(isto é, f(n) = O(n,-) para = 1), 0 caso 1 se aplica e T(n) = O(n,). 

Finalmente, considere a recorrência (4.18), 


T(n) = 7T(n/2) + O(n), 


que descreve o tempo de execução do algoritmo de Strassen. Aqui, temos a = 7, b=2, f(n) = O (n,) e, assim, ny? 4 = 
Nog? 7. Reescrevendo log, 7 como Ig 7 e lembrando que 2,80 < lg 7 < 2,81, vemos que f(n) = O(m 7-) para = 0,8. 
Novamente, o caso 1 se aplica e temos a solução T(n) = O(n,, 7). 


Exercícios 
4.5-1 Use o método mestre para fornecer limites assintóticos restritos para as recorrências a seguir. 


T(n) = 2T(n/4) + 1. 


» 


b. T(n)=2T(n/4) + Nn. 


c Tn)=2Un/4)+n. 


d. T(n)=2T(n/4)+ n.. 


4.5-2 O professor César quer desenvolver um algoritmo para multiplicação de matrizes que seja assintoticamente 
mais rápido do que o algoritmo de Strassen. Seu algoritmo usará o método de divisão e conquista, repartindo 
cada matriz em pedaços de tamanho n/4 x n/4, e, juntas, as etapas de dividir e combinar levarão o tempo 
O(n,) . Ele precisa determinar quantos subproblemas tal algoritmo tem de criar para superar o algoritmo de 
Strassen. Se o algoritmo criar a subproblemas, a recorrência para o tempo de execução T(n) se tornará T(n) 
= aT(n/4) + O(n,). Qual é o maior valor inteiro de a para o qual o algoritmo do professor César seria 
assintoticamente mais rápido que o algoritmo de Strassen? 


4.5-3 Use o método mestre para mostrar que a solução para a recorrência de busca binária T(n) = T(n/2) + O(1) é 
T(n) = O(lg n). (Veja no Exercício 2.3-5 uma descrição da busca binária.) 


4.5-4 O método mestre pode ser aplicado à recorrência T(n) = 4T(n/2) + n, Ig nº Justifique sua resposta. Dê um 
limite superior assintótico para essa recorrência. 


45-5 X 


Considere a condição de regularidade af(n/b) < cf(n) para alguma constante c < 1, que faz parte do caso 3 
do teorema mestre. Dê um exemplo de constantes a > 1 e b > 1 e uma função f(n) que satisfaçam todas as 
condições no caso 3 do teorema mestre, exceto a condição de regularidade. 


4.6 x Prova DO TEOREMA MESTRE 


Esta seção contém uma prova do teorema mestre (Teorema 4.1). A prova não precisa ser entendida para se 
aplicar o teorema mestre. 

A prova tem duas partes. A primeira parte analisa a recorrência mestre (4.20), adotando a premissa simplificadora 
de que T(n) é definida apenas para potências exatas de b > 1, isto é, para n = 1, b, b,, .... Essa parte nos dá toda a 
intuição necessária para entender por que o teorema mestre é verdadeiro. A segunda parte mostra como estender a 
análise a todos os inteiros positivos n; trata com técnica matemática o problema do tratamento de pisos e tetos. 

Nesta seção, algumas vezes abusaremos um pouco de nossa notação assintótica usando-a para descrever o 
comportamento de funções que são definidas somente para potências exatas de b. Lembre-se de que as definições de 
notações assintóticas exigem que os limites sejam provados para todos os números suficientemente grandes, não apenas 
para aqueles que são potências de b. Visto que poderíamos produzir novas notações assintóticas que se aplicassem 
somente ao conjunto fb, :i =, 1,...; em vez de aos números não negativos, esse abuso é de menor importância. 

Apesar disso, sempre deveremos estar atentos quando usarmos a notação assintótica em um domínio limitado, 
para não chegarmos a conclusões madequadas. Por exemplo, provar que T(n) = O(n) quando n é uma potência exata 
de 2 não garante que T(n) = O(n). A função T(n) poderia ser definida como 


T(n)= aa sen=1,2,4,8,..., 


nº senão. 


e, nesse caso, o melhor limite superior que se aplica a todos os valores de n é T(n) = O(n,). Devido a esse tipo de 
consequência drástica, nunca empregaremos a notação assintótica a um domínio restrito sem deixar absolutamente claro 
pelo contexto que estamos fazendo isso. 


4.6.1 A PROVA PARA POTÊNCIAS EXATAS 


A primeira parte da prova do teorema mestre analisa a recorrência (4.20) 
T(n) =aT(n/b) + f(n) 


para o método mestre, adotando a premissa de que n é uma potência exata de b > 1, onde b não precisa ser um inteiro. 
Dividimos a análise em três lemas. O primeiro reduz o problema de resolver a recorrência mestre ao problema de 
avaliar uma expressão que contém um somatório. O segundo determina limites para esse somatório. O terceiro lema 
reúne os dois primeiros para provar uma versão do teorema mestre para o caso em que n é uma potência exata de b. 


Lema 4.2 


Sejama>1 eb> 1 constantes, e seja f(n) uma função não negativa definida para potências exatas de b. Defina 
T(n) para potências exatas de b pela recorrência 


Ta)= O(1) sen=1, 
aT(n/b)+f(n) sen=b, 


onde i é um inteiro posítivo. Então, 


log, n—1 


T(n)=(ne + 3 a'f(n/b'): (4.21) 


j=0 
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Total: O(n'*") + E a f(n/b') 
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Figura 4.7 A árvore de recursão gerada por T(n) = aT (n/b) + An). Essa é uma árvore a-ária completa com nvoga folhas e altura logon. O 
custo dos nós em cada profundidade é mostrado à direita, e sua soma é dada na equação (4.21). 


Prova Usamos a árvore de recursão da Figura 4.7. A raiz da árvore tem custo f(n), e ela tem a filhas, cada uma com 
custo f(n/b). (É conveniente imaginar a como um inteiro, especialmente se visualizamos a árvore de recursão, mas a 
matemática não o exige.) Cada uma dessas filhas tem a filhas, o que resulta em a, nós na profundidade 2, e cada uma 
das a filhas tem custo f(n/ b,). Em geral, há a, nós à profundidade ;, e cada um tem o custo f(n/b;). O custo de cada 
folha é T(1) = O(1), e cada folha está a uma profundidade log” n da raiz, visto que n/b ar q = 1. Há a logb , nda 
folhas na árvore. 

Podemos obter a equação (4.21) somando os custos dos nós em cada profundidade da árvore, como mostra a 
figura. O custo de todos os nós internos à profundidade j é a; fln/b ; ) e, assim, o total de todos os níveis de nós 
internos é 


log, n—1 


Do a f(n/b). 


j=0 


No algoritmo de divisão e conquista subjacente, essa soma representa os custos de dividir problemas em subproblemas 
e depois recombinar os subproblemas. O custo de todas as folhas, que é o custo de fazer com que todos os 1, à 
subproblemas tenham tamanho 1, é O(n,g! 2). 


Em termos da árvore de recursão, os três casos do teorema mestre correspondem a casos nos quais o custo total 
da árvore é (1) dominado pelos custos nas folhas, (2) distribuído uniformemente entre os níveis da árvore ou (3) 
dominado pelo custo da raiz. 

O somatório na equação (4.21) descreve o custo das etapas de divisão e combinação no algoritmo de divisão e 
conquista subjacente. O lema seguinte dá limites assintóticos para o crescimento do somatório. 


Lema 4.3 


Sejama> 1 eb> 1 constantes, e seja f(n) uma função não negativa definida para potências exatas de b. Uma função 
g(n) definida para potências exatas de b por 


log, n—1 j 
gm= 5 a'f(n/b') (4.22) 
tem os seguntes limites assintóticos para potências exatas de b: 
1. Sef(n) = O(nvs «-) para alguma constante > 0, então g(n) = O(niog a). 
2. Sefin) = O(niws a), então g(n) = O(n%s a lg n). 
3. Seaf(n/b) < cfin) para alguma constante c < 1 e para todo n suficientemente grande, então g(n) = O(f(n)). 


Prova Para o caso 1, temos ln) = O(n,, a-), o que implica que f(n/b) = O((n/b, Jog a-). Substituindo na equação 
(4.22) temos 


g(n)=O 


log, n—1 log, a—e 
aê É | (4.23) 


j=0 b' 


Limitamos o somatório dentro da notação O fatorando termos e simplificando, o que resulta em uma série 
geométrica crescente: 


log, n—1 log, 4—e log, n—1 E j 
y ;i|n log, a—e ab 
) q |— = n ) ; 
og, a 
j=0 b' o lb * 
log, n—1 


= nºs e (ps) 


j=0 
elog, n 
log, a-e b dy | 
n b 
p=], 
e 
log a-e| N —1 
nº 
bº —1 


Visto que b e são constantes, podemos reescrever a última expressão como 11,» 4-O(n) = O(n* 4). Substituindo 
o somatório na equação (4.8) por essa expressão, temos 


g(n) = O(nºs9), 


e o caso 1 fica provado. 
Como o caso 2 considera que f(n) = O (mn? “ ) para o caso 2, temos que f(n/b, ) = O ((n/bj Jogb a). Substituindo 
na equação (4.22) temos 


log, n—1 log, à 
sn=6] >, E) | iai 
| 


j=0 


Limitamos o somatório dentro da notação É como no caso 1, mas dessa vez não obtemos uma série geométrica. 
Em vez disso, descobrimos que todos os termos do somatório são iguais: 


log, n—1 log, à log, n—1 j 


pu n e ns E» a 
i log, a 
j=0 b' = b 08, 


log, n—1 


= ne 5 il 


= 


log, a 
n b 


log, n. 


Substituindo o somatório da equação (4.24) por essa expressão obtemos 
log 
s(n) = O(n “log, n) 
] y 
= G(mn ““loa), 


o que prova o caso 2. 

Provamos o caso 3 de modo semelhante. Como f(n) aparece na definição (4.22) de g(n) e todos os termos de 
g(n) são não negativos, podemos concluir que g(n) = (f(n)) para potências exatas de b. No enunciado do lema 
consideramos que af(n/b) < cf(n) para alguma constante c < 1 e todo n suficientemente grande. Reescrevemos essa 
expressão como f(n/b) < (c/a) f(n) e iteramos j vezes, o que produz f(n/b;) < (cla) ftn) ou, o que é equivalente, a; 
Kn/b;) < ci ftn), onde consideramos que os valores para os quais efetuamos a iteração são suficientemente grandes. 
Visto que o último e menor desses valores é n/b,-1, basta para considerarmos que n/b,-! é suficientemente grande. 

Substituindo na equação (4.22) e simplificando, obtemos uma série geométrica mas, ao contrário da série no caso 
1, essa tem termos decrescentes. Usamos um termo O(1) para capturar os termos que não são abrangidos pela 
premissa que adotamos, isto é, n é suficientemente grande: 


log, n—1 | | 
gm) = >, 04fn/b) 

= 

Ea 


> cfn+o(1) 


fe Se'+0() 


= fim oq) 


l—c 
= O(f(n)). 


LA 


TA 


visto que c é uma constante. Assim, podemos concluir que g(n) = O(f(n)) para potências exatas de b. Com a prova do 
caso 3, concluímos a prova do lema. 


Agora podemos provar uma versão do teorema mestre para o caso em que n é uma potência exata de b. 


Lema 4.4 


Sejama>1 eb>1 constantes, e seja f(n) uma função não negativa definida para potências exatas de b. Defina 
T(n) para potências exatas de b pela recorrência 


O(1) sen=1, 
aT(n/b)+f(n) sen=b', 
onde i é um inteiro positivo. Então, T(n) tem os seguintes limites assintóticos para potências exatas de b: 


1. Sef(n) = O(nws «) para alguma constante > 0, então T(n) = O(Nnogb a). 

2. Sef(n) = O(s «), então T(n) = O(A a lg 11). 

3. Se fin) = (nos «+) para alguma constante > 0, e se af(n/b) < cf(n) para alguma constante c < 1 e todo n 
suficientemente grande, então T(n) = O(f(n)). 


Prova Empregamos os limites do Lema 4.3 para avaliar o somatório (4.21) do Lema 4.2. Para o caso 1, temos 


T(n) es (nº RES O(n'*") 
E (nº , 
e, para o caso 2, 


log, a 


a(n'* 5 E O(n Sb Ig n) 
= An gn). 


T(n) 


Para o caso 3, 


T(n) = (nº) + (fm) 
A f(n). 


porque f(n) = O(n'8,*+9) 


4.6.2 PISOS E TETOS 


Para concluir a prova do teorema mestre, devemos agora estender nossa análise à situação na qual pisos e tetos 
aparecem na recorrência mestre, de modo que a recorrência é definida para todos os inteiros, não apenas para 
potências exatas de b. Obter um limite inferior para 


T(n) = aT([n/b1) + Kn) (4.25) 


e um limite superior para 


T(n) = aT(ln/b)) + Kn) (4.26) 


é rotina, visto que podemos usar a limitação n/b > n/b no primeiro caso para produzir o resultado desejado e usar a 
limitação n/b < n/b no segundo caso. Para impor um limite inferior para a recorrência (4.26), utilizamos praticamente a 
mesma técnica usada para impor um limite superior para a recorrência (4.25); portanto, apresentaremos somente este 
último limite. 

Modificamos a árvore de recursão da Figura 4.7 para produzir a árvore de recursão da Figura 4.8. À medida que 
descemos pela árvore de recursão, obtemos uma sequência de invocações recursivas para os argumentos 


[n/b], 
[[n/b1/b|, 
n/6] /b|/b|, 


Vamos denotar o ;-ésimo elemento na sequência por n,, onde 


n sej=0, 
is ] (4.27) 
j [1 [b| sej>0. 


Nossa primeira meta é determinar a profundidade k tal que n: é uma constante. Usando a desigualdadex < x + 1, 
obtemos 
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Figura 4.8 Árvore de recursão gerada por T(n) = aT(n/b) + fn). O argumento recursivo n; é dado pela equação (4.27). 
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Fazendo j = Log, a obtemos 
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e, assim, vemos que, à profundidade log? n, o tamanho do problema é limitado por uma constante. 
Pela Figura 4.8, observamos que 


log, n|-1 
T(n) = (nº) + z a'f(n), (4.28) 
j=0 / 
que é quase igual à equação (4.21), exceto que n é um inteiro arbitrário e não está restrito a ser uma potência exata de 
b. 
Agora podemos avaliar o somatório 


[log, nt 


sm= 5, af), (4.29) 
pela equação (4.28) de modo análogo à prova do Lema 4.3. Começando como caso 3, sea f(n/b)<cf(n) paran > 
b + bb - 1), onde c < 1 é uma constante, então segue-se que a; fln ) < ci; fln). Portanto, podemos avaliar a soma na 
equação (4.29) exatamente como no Lema 4.3. Para o caso 2, temos f(n) = O(n,, 4). Se pudermos mostrar que f(n ) 


= One ala; ) = O((n/b, Jlogb a), então a prova para o caso 2 do Lema 4.3 funcionará. Observe que j < log n implica 
bin<1.0 limte f(n) = On, 4) implica que existe uma constante c > O tal que, para todo n suficientemente grande, 


log pº 


fin) < e+— 


log pº 


log pº 


jm 


log, à j 

E UR a HE 
n 
Eh a b 


visto que c(l + b/(b - 1))logb a é uma constante. Assim, provamos o caso 2. A prova do caso 1 é quase idêntica. A 
chave é provar o limite f(n,) = O(n 'ºs bee), que é semelhante à prova correspondente do caso 2, embora a álgebra seja 
mais complicada. 

Agora provamos os limites superiores no teorema mestre para todos os inteiros n. A prova dos limites inferiores é 
semelhante. 


Exercícios 


4.61 * 


Dê uma expressão simples e exata para n, na equação (4.27) para o caso em que b é um inteiro positivo, em 
vez de um número real arbitrário. 


4.62 * 


Mostre que, se f(n) = O(ng” 4 Ig* n) onde k > 0, então a recorrência mestre tem solução T(n) = O(m? à lg* 
+ 1 n). Por simplicidade, restrinja sua análise a potências exatas de b. 


4.6-3 X 


Mostre que o caso 3 do teorema mestre é exagerado, no sentido de que a condição de regularidade aftn/b) < 
cf(n) para alguma constante c < 1 implica que existe uma constante > O tal que f(n) = (115,º 4+). 


Problemas 


4-1 Exemplos de recorrência 


4-2 


Dê limites assimntóticos superiores e mferiores para T(n) em cada uma das recorrências a seguir. Considere que 
T(n) é constante para n < 2. Torne seus limites tão restritos quanto possível e justifique suas respostas. 


a. 


b. 


f 


& 


T(n)=27(n/2) =, 
T(n) = T(n/10) =. 
T(n) = 16T(n/4) = n,. 
T(n)=7T(n/3)=n,. 
T(n) = 7T(n/2)=m,. 
T(n) = 2T(n/4) = Nn. 


T(n)= Un -2)=n.. 


Custos da passagem de parâmetros 


Em todo este livro, supomos que a passagem de parâmetros durante chamadas de procedimento demora um 
tempo constante, mesmo para passar um arranjo de N elementos. Essa premissa é válida na maioria dos 
sistemas porque é passado um ponteiro para o arranjo, e não o próprio arranjo. Este problema examina as 
implicações de três estratégias de passagem de parâmetros: 


1. 


2. 


b. 


Um arranjo é passado por ponteiro. Tempo = o(1). 
Um arranjo é passado por cópia. Tempo = O(N), onde N é o tamanho do arranjo. 


Um arranjo é passado por cópia somente da subfaixa que poderia ser acessada pelo procedimento 
chamado. Tempo = O(g - p + 1) se o subarranjo A[p .. q] for passado. 


Considere o algoritmo de busca binária recursiva para localizar um número em um arranjo ordenado (veja 
Exercício 2.3-5). Dê recorrências para os tempos de execução do pior caso de busca binária quando os 
arranjos são passados com a utilização de cada um dos três métodos citados e dê bons limites superiores 
para as soluções das recorrências. Seja N o tamanho do problema original e n o tamanho de um 
subproblema. 


Faça novamente a parte (a) para o algoritmo Meror-Sorr da Seção 2.3.1. 


Outros exemplos de recorrência 


Dê limites assintóticos superiores e mferiores para T(n) em cada uma das recorrências a seguir. Considere que 
T(n) é constante para n suficientemente pequeno. Torne seus limites tão justos quanto possível e justifique suas 


respostas. 

a T(n)=4T(n/3)+n gn. 
bd. T(n)=37(n/3) + ng n. 
c T(n)=4T(n/2)+n,Nn. 
d. T(n)=3T(n/3-2)+n/2. 


e T(n)=2n/2)+ nlgn. 
T(n) = T(n/2) + T(n/4) + T(n/8) + n. 


T(n) = T(n - D+ 1h. 


> 8 


T(n) = T(n - D+Ign. 


ii Tn)=T(n-29+ gn. 
j Tn)= YnTn) + n. 
Números de Fibonacci 


Este problema desenvolve propriedades dos números de Fibonacci, que são definidos pela recorrência (3.22). 
Usaremos a técnica de gerar funções para resolver a recorrência de Fibonacci. Defina a função geradora (ou 
série formal de potências) F por 


E = >» Ea 
i=0 


= bto+7+27 +37 +57 +82 + 197 421% ess, 


onde F, é o i-ésimo número de Fibonacci. 
a. Mostre que F(z) = z + zF(z) + zoF(z). 


b. Mostre que 


F(z) = 


onde 


1-7 


1+N5 


Ê 


1-5 


Pa 


c. Mostre que 


d. Use a parte (c) para provar que F = q:/ N5 para i > 0, arredondado até o inteiro mais próximo. 
(Sugestão: Observe que |p”"|< 1.) 


Testes de chips 


O professor Diógenes tem n chips de circuito integrado supostamente idênticos que, em princípio, são capazes 
de testar uns aos outros. O aparelho de teste do professor acomoda dois chips de cada vez. Quando o 
aparelho é carregado, cada chip testa o outro e informa se este está bom ou ruim. Um chip bom sempre 
informa com precisão se o outro chip está bom ou ruim, mas o professor não pode confiar na resposta de um 
chip ruim. Portanto, os quatro resultados possíveis de um teste são: 


Chip 4 informa Chip B informa Conclusão 
B está bom A está bom Ambos estão bons ou ambos estão ruins 
B está bom A está ruim Ao menos um está ruim 
B está ruim A está bom Ao menos um está ruim 
B está ruim A está ruim Ao menos um está ruim 


a. Mostre que, se mais de n/2 chips estiverem ruins, o professor não pode necessariamente determinar quais 
chips estão bons usando qualquer estratégia baseada nessa espécie de teste aos pares. Admita que os 
chips ruins possam conspirar para enganar o professor. 


b. Considere o problema de descobrir um único chip bom entre n chips, considerando que mais de n/2 dos 
chips estejam bons. Mostre que n/2 testes de pares são suficientes para reduzir o problema a um outro 
com aproximadamente metade do tamanho. 


c. Mostre que os chips bons podem ser identificados com E(n) testes de pares, considerando que mais de 
n/2 dos chips estão bons. Dê e resolva a recorrência que descreve o número de testes. 


Arranjos de Monge 


Um arranjo m x n de números reais, representado por 4 é um arranjo de Monge se, para todo i,j, k e I tais 
quel<i<k<mel<j<I<n,temos 


Ali, j] + Alk, 1] < Afi, 1) + A[k, 7]. 


Em outras palavras, sempre que escolhemos duas linhas e duas colunas de um arranjo de Monge e 
consideramos os quatro elementos nas interseções das linhas e das colunas, a soma dos elementos na parte 
superior esquerda e na parte inferior direita é menor ou igual à soma dos elementos na parte inferior esquerda 
e na parte superior direita. Por exemplo, o arranjo a seguir é um arranjo de Monge: 


10 
17 
24 
Ji 
45 
36 
19 


17 
ra 
28 
13 
44 
Do 
66 


51 


28 
22 
34 
17 
37 
21 
o 


23 


34 


a. Prove que um arranjo é de Monge se e somente se para todo i=1,2,.,m-lej=1,2,.,n-1, 


temos 


ALI] Ap Lj +lj=Alij + Apis Lg]. 


(Sugestão: Para a parte “se”, aplique indução às linhas e colunas separadamente.) 


b. O arranjo a seguir não é de Monge. Troque a ordem de um elemento para transformá-lo em um arranjo 
de Monge. (Sugestão: Use a parte (a).) 


37 
21 
53 
32 
43 


23 


Ed 


15 


ê 


c. Seja f(i) o índice da coluna que contém o elemento mínimo da extrema esquerda da linha i. Prove que 
HD <fQ)<..</f(m) para qualquer arranjo de Monge m x n. 


d. Apresentamos a seguir a descrição de um algoritmo de divisão e conquista que calcula o elemento mínimo 
da extrema esquerda em cada linha de um arranjo de Monge m x n 4: 


Construa uma submatriz 4º de 4 composta pelas linhas de numeração par de 4. Determine 
recursivamente o mínimo da extrema esquerda para cada linha de 4º. Em seguida, calcule o mínimo da 
extrema esquerda nas linhas de numeração ímpar de 4. 


Explique como calcular o mínimo da extrema esquerda nas linhas de numeração ímpar de 4 (dado que o 
mínimo da extrema esquerda das linhas de numeração par seja conhecido) no tempo O(m + n). 


e. Escreva a recorrência que descreve o tempo de execução do algoritmo descrito na parte (d). Mostre que 
sua solução é O(m + n logm). 


NorTas DO CAPÍTULO 


O método de divisão e conquista como técnica para projeto de algoritmos data, no mínimo, de 1962, com a 
publicação de um artigo por Karatsuba e Ofiman [194]. Todavia, é possível que ele tenha sido usado bem antes disso; 
de acordo com Heideman, Johnson e Burrus [163], C. F.Gauss inventou o primeiro algoritmo de transformada rápida 
de Fourier em 1805, e a formulação de Gauss desmembra o problema em subproblemas menores, cujas soluções são 
combinadas. 

O problema do subarranjo mínimo na Seção 4.1 é uma pequena variação de um problema estudado por Bentley 
[43, Capítulo 77]. 

O algoritmo de Strassen [325] causou grande sensação quando foi publicado em 1969. Antes dessa data, poucos 
imaginavam a possibilidade de um algoritmo assintoticamente mais rápido do que o procedimento básico Square-MarrIx- 
MuznrLy. O limite superior assintótico para multiplicação de matrizes foi melhorado desde então. Até agora, o algoritmo 
mais assintoticamente eficiente para multiplicar matrizes n x n, proposto por Coppersmith e Winograd [779], tem tempo 
de execução de O(n,,376). O melhor limite inferior conhecido é apenas o óbvio limite inferior (n,) (Óbvio porque temos 
de preencher n, elementos da matriz do produto). 

De um ponto de vista prático, muitas vezes o algoritmo de Strassen não é o método de preferência para 
multiplicação de matrizes, por quatro razões: 


1. O fator constante oculto no tempo de execução E(n17) do algoritmo de Strassen é maior do que o fator constante 
no tempo O(n:) do procedimento Square-Matrix-MuLTPLY. 

2. Quando as matrizes são esparsas, os métodos específicos para matrizes esparsas são mais rápidos. 

3. O algoritmo de Strassen não é tão numericamente estável quanto o procedimento Square--Marrix-MuLnrLy. Em 
outras palavras, em razão da utilização de aritmética de computador de precisão limitada para tratar valores não 
inteiros, acumulam-se erros maiores no algoritmo de Strassen do que no procedimento Square-Marrix-MuLrPLY. 

4. As submatrizes formadas nos níveis de recursão consomem espaço. 


As duas últimas razões foram atenuadas por volta de 1990. Higham [167] demonstrou que a diferença em 
estabilidade numérica tinha sido alvo de excessiva ênfase; embora o algoritmo de Strassen seja demasiadamente instável 
numericamente para algumas aplicações, essa instabilidade está dentro de limites aceitáveis para outras. Bailey, Lee e 
Simon [32] discutem técnicas para reduzir os requisitos de memória para o algoritmo de Strassen. 

Na prática, implementações de multiplicação rápida de matrizes para matrizes densas usam o algoritmo de Strassen 
para tamanhos de matrizes acima de um “ponto de passagem” e trocam para um método mais simples tão logo o 
tamanho do subproblema se reduza a uma dimensão abaixo do ponto de passagem. O valor exato do ponto de 
passagem depende muito do sistema. As análises que contam operações mas ignoram os efeitos de caches e pipelines 
produziram pontos de passagem baixos de até n = 8 (por Higham [167]) ou n = 12 (por Huss-Lederman et al. [186]). 
D'Alberto e Nicolau [81] desenvolveram um esquema adaptativo que determina o ponto de passagem por comparação 
com paradigmas estabelecidos quando da instalação de seu pacote de software. Eles encontraram pontos de passagem 
em vários sistemas na faixa de n = 400 a n = 2150 e não conseguiram determinar um ponto de passagem para alguns 
sistemas. 

Recorrências já eram estudadas em 1202 por L. Fibonacci, e é a ele que os números de Fibonacci devem sua 
denominação. A. De Moivre introduziu o método de finções geradoras (veja Problema 4-4) para resolver recorrências. 
O método mestre foi adaptado de Bentley, Haken e Saxe [44], que fornece o método estendido justificado pelo 
Exercício 4.6-2. Knuth [209] e Liu [237] mostram como resolver recorrências lineares usando o método de funções 


geradoras. Purdom e Brown [287] e Graham, Knuth e Patashnik [152] contêm discussões extensas da solução de 
recorrências. 

Vários pesquisadores, entre eles Akra e Bazzi [13], Roura [299], Verma [346] e Yap [306], propuseram métodos 
para resolver recorrências de divisão e conquista mais gerais do que as que são resolvidas pelo método mestre. 
Descrevemos aqui o resultado de Akra e Bazzi, como modificado por Leighton (228). O método de Akra-Bazzi 
funciona para recorrências da forma 


O(1) seI<x<rx, 
T(n)= : à (4.30) 
sd aT(bx)+ f(x) sex>x,, 
onde 
* x>1 é umnúmero real, 
* xo é uma constante tal que xo > 1/biexo> 1(1-bi)parai=1,2,...,k, 
* — a;é uma constante positiva para i= 1,2,...,K, 


*-b; é uma constante na faxa O <b;<1 parai=1,2,...,h, 

* Kk>1 é uma constante mteira e 

* f(x) é uma função não negativa que satisfaz a condição de crescimento polinomial: existem constantes positivas 
cie c>tais que, para todo x > 1, para i = 1,2,..., k, e para todo u tal que bx <u <x, temos ciflx) < fu) < cof). 
(Se |f "(x)| tiver como limite superior algum polinômio em x, então f(x) satisfaz a condição de crescimento 
polinomial. Por exemplo, f(x) = xalg;x satisfaz essa condição para quaisquer constantes reais a e b.) 


Embora o método mestre não se aplique a um recorrência como T(n) = T(n/3) + T(2n/3) + O(n), o método de 
Akra-Bazzi se aplica. Para resolver a recorrência (4.30), em primeiro lugar determine o único número real p tal que 


k 
Po 
a ab; 1 (Tal p sempre existe.) Então, a solução para a recorrência é 


T(n)=O ef to | 


ua 


O método de Akra-Bazzi pode ser um pouco dificil de usar, mas serve para resolver recorrências que modelam a 
divisão do problema em subproblemas de tamanhos substancialmente desiguais. O método mestre é mais simples de 
usar, mas só se aplica quando os tamanhos dos subproblemas são iguais. 


ANÁLISE PROBABILÍSTICA 
E ALGORITMOS ALEATORIZADOS 


Este capítulo introduz a análise probabilística e os algoritmos aleatorizados. Se você não estiver familiarizado com 
os fundamentos da teoria das probabilidades, leia o Apêndice C, que apresenta uma revisão desse assunto. A análise 
probabilística e os algoritmos aleatorizados serão revistos várias vezes ao longo deste livro. 


5.1 (OpPROBLEMADA CONTRATAÇÃO 


Suponha que você precise contratar um novo auxiliar de escritório. Suas tentativas anteriores de contratação foram 
malsucedidas e você decidiu usar uma agência de empregos. A agência de empregos lhe envia um candidato por dia e 
você o entrevista e depois decide contratá-lo ou não. Você terá de pagar à agência de empregos uma pequena taxa 
para entrevistar um candidato. Porém, a contratação de um candidato é mais onerosa, já que você tem de demitir seu 
auxiliar de escritório atual e pagar uma taxa de contratação substancial à agência de empregos. A política de sua 
empresa é ter sempre a melhor pessoa possível para o cargo. Portanto, você decide que, depois de entrevistar cada 
candidato, se esse candidato for mais bem qualificado que o auxiliar de escritório atual, o auxiliar de escritório atual será 
demitido e o novo candidato será contratado. Você está disposto a pagar o preço resultante dessa estratégia, mas 
deseja avaliar qual será esse preço. 

O procedimento Hire-Assistant dado a seguir expressa essa estratégia de contratação em pseudocódigo. Tal 
procedimento considera que os candidatos ao emprego de auxiliar de escritório são numerados de 1 a n e também que, 
depois de entrevistar o candidato i, você poderá determinar se esse candidato i é o melhor que viu até então. Para 
inicializar, o procedimento cria um candidato fictício, de número O, menos qualificado que cada um dos outros 
candidatos. 


HIRE-ASSISTANT (n) 


1 melhor = O // o candidato O é um candidato fictício menos qualificado 
2 fori = 1 ton 

E entrevistar candidato i 

4 if candidato i é melhor que candidato melhor 

5 melhor = i 

6 contratar candidato i 


O modelo de custo para esse problema é diferente do modelo descrito no Capítulo 2. Não estamos preocupados 
com o tempo de execução de Hire-Assistant, Mas com os custos incorridos na entrevista e na contratação. À primeira 
vista, analisar o custo desse algoritmo pode parecer muito diferente de analisar o tempo de execução, digamos, da 
ordenação por intercalação. Porém, as técnicas analíticas usadas são idênticas, quer estejamos analisando custo ou 


tempo de execução. Em um ou outro caso, estamos contando o número de vezes que certas operações básicas são 
executadas. 

Entrevistar tem um custo baixo, digamos c,, enquanto contratar é caro e custa c,. Se m for o número de pessoas 
contratadas, o custo total associado a esse algoritmo é O(cn + cm). Independentemente de quantas pessoas 
contratarmos, sempre entrevistaremos n candidatos e, portanto, sempre incorreremos no custo cn associado a 
entrevistar. Assim, nos concentraremos na análise de c;m, o custo de contratação. Essa quantidade varia com cada 
execução do algoritmo. 

Esse cenário serve como modelo para um paradigma computacional bem comum. Muitas vezes, precisamos 
determinar o valor máximo ou mínimo em uma sequência examinando cada elemento da sequência e mantendo um 
“vencedor” atual. O problema da contratação modela a frequência com que atualizamos nossa noção de qual elemento 
está vencendo no momento em questão. 


Análise do pior caso 


No pior caso, contratamos cada candidato que entrevistamos. Essa situação ocorre se os candidatos vierem em 
ordem estritamente crescente de qualidade, e nesse caso contratamos n vezes para um custo total de contratação 
Ol(cyn). 

Porém, é claro que os candidatos nem sempre vêm em ordem crescente de qualidade. De fato, não temos 
nenhuma ideia da ordem em que eles chegam nem temos qualquer controle sobre essa ordem. Portanto, é natural 
perguntar o que esperamos que aconteça em um caso típico ou médio. 


Análise probabilística 


A análise probabilística é a utilização da probabilidade na análise de problemas. Na maior parte das vezes, 
usamos análise probabilística para analisar o tempo de execução de um algoritmo. Às vezes, nós a usamos para analisar 
outras quantidades, como o custo da contratação no procedimento Hire-Assistant. Para efetuar uma análise 
probabilística, temos de conhecer ou supor a distribuição das entradas. Em seguida, analisamos nosso algoritmo, 
calculando o tempo de execução para o caso médio, e tomamos a média sobre a distribuição das entradas possíveis. 
Assim, na verdade estamos calculando a média do tempo de execução de todas as entradas possíveis. Quando 
informarmos esse tempo de execução, nós o denominaremos tempo de execução do caso médio. 

Temos de tomar muito cuidado quando decidirmos a distribuição das entradas. Em alguns problemas é possível 
inferir razoavelmente alguma coisa sobre o conjunto de todas as entradas possíveis; então poderemos usar a análise 
probabilística como técnica para projetar um algoritmo eficiente e como um meio de compreender melhor um problema. 
Em outros problemas, não é possível descrever uma distribuição de entradas razoável e, nesses casos, não podemos 
utilizar a análise probabilística. 

No caso do problema da contratação, podemos considerar que os candidatos vêm em uma ordem aleatória. O 
que isso significa para esse problema? Supomos que podemos comparar dois candidatos quaisquer e decidir qual é o 
mais bem qualificado; isto é, existe uma ordem total para os candidatos. (Consulte o Apêndice B para ver a definição 
de uma ordem total) Assim, podemos classificar cada candidato com um número exclusivo de 1 a n, usando 
ordenação(i) para denotar o posto do candidato i, adotando a convenção de que um posto mais alto corresponde a um 
candidato mais bem qualificado. A lista ordenada (ordenação(1), ordenação(2), ..., ordenação(n)) é uma permutação 
da lista (1, 2, ..., n). Dizer que os candidatos chegam em ordem aleatória equivale a dizer que essa lista de classificações 
tem igual probabilidade de ser qualquer uma das n! permutações dos números 1 a n. Alternativamente, dizemos que as 
classificações formam uma permutação aleatória uniforme; isto é, cada uma das n! permutações possíveis aparece 
com igual probabilidade. 

A Seção 5.2 contém uma análise probabilística do problema da contratação. 


Algoritmos aleatorizados 


Para utilizar a análise probabilística, precisamos saber alguma coisa sobre a distribuição das entradas. Em muitos 
casos, sabemos bem pouco sobre tal distribuição. Mesmo que saibamos algo sobre a distribuição, talvez não possamos 
modelar esse conhecimento em termos computacionais. Ainda assim, muitas vezes podemos usar probabilidade e 
aleatoriedade como ferramentas para projeto e análise de algoritmos, aleatorizando o comportamento de parte do 
algoritmo. 

No problema da contratação, pode parecer que os candidatos estão sendo apresentados em ordem aleatória, mas 
não temos nenhum meio de saber se isso realmente acontece ou não. Portanto, para desenvolver um algoritmo 
aleatorizado para o problema da contratação, devemos ter maior controle sobre a ordem em que entrevistamos os 
candidatos. Portanto, vamos alterar um pouco o modelo. Dizemos que a agência de empregos tem n candidatos e que 
ela nos envia uma lista dos candidatos com antecedência. A cada dia, escolhemos aleatoriamente qual candidato 
entrevistar. Embora não saibamos nada sobre os candidatos (além de seus nomes), fizemos uma mudança significativa. 
Em vez de confiar em uma suposição de que os candidatos virão em ordem aleatória, obtivemos o controle do processo 
e impusemos uma ordem aleatória. 

De modo mais geral, dizemos que um algoritmo é aleatorizado se seu comportamento for determinado não 
apenas por sua entrada, mas também por valores produzidos por um gerador de números aleatórios. 
Consideraremos que temos à nossa disposição um gerador de números aleatórios Ranvom. Uma chamada a Ranpon(a, 
b) retorna um inteiro entre a e b, inclusive, sendo cada inteiro igualmente provável. Por exemplo, Ranpov(0, 1) produz O 
com probabilidade 1/2 e produz 1 com probabilidade 1/2. Uma chamada a Ranvom(3, 7) retorna 3, 4, 5, 6 ou 7, cada 
um com probabilidade 1/5. Cada inteiro retornado por Ranvom é independente dos inteiros retornados em chamadas 
anteriores. Você pode imaginar Ranom como o lançamento de um dado de (b — a + 1) lados para obter sua saída. (Na 
prática, a maioria dos ambientes de programação oferece um gerador de números pseudoaleatórios: um algoritmo 
determinístico que retorna números que “parecem” aleatórios estatisticamente.) 

Quando analisamos o tempo de execução de um algoritmo aleatorizado, adotamos a expectativa do tempo de 
execução para a distribuição de valores retornada pelo gerador de números aleatórios. Distinguimos esses algoritmos 
daqueles, cuja entrada é aleatória referindo-nos ao tempo de execução de um algoritmo aleatorizado como um tempo 
de execução esperado. Em geral, discutimos o tempo de execução do caso médio quando a distribuição de 
probabilidade refere-se às entradas do algoritmo, e discutimos o tempo de execução esperado quando o próprio 
algoritmo faz escolhas aleatórias. 


Exercícios 


5.1-1 Mostre que a suposição de que sempre somos capazes de determinar qual candidato é o melhor, na linha 4 do 
procedimento Hire-Assistanr, implica que conhecemos uma ordem total para as classificações dos candidatos. 


512 x 


Descreva uma implementação do procedimento Ranvom(a, b) que só faça chamadas a Ran-pom(0, 1). Qual é 
o tempo de execução esperado de seu procedimento, em função de a e b? 


513 * 


Suponha que você queira que saia O com probabilidade 1/2 e 1 com probabilidade 1/2. Há um procedimento 
BiaseD-RANDOM à sua disposição que produz como saída O ou 1. A saída é 1 com alguma probabilidade p e O 
com probabilidade 1 — p, onde O <p < 1, mas você não sabe qual é o valor de p. Dê um algoritmo que utilize 
BraseD-RANDOM COMO Uma sub-rotina e retorne uma resposta não enviesada, retornando O com probabilidade 
1/2 e 1 com probabilidade 1/2. Qual é o tempo de execução esperado de seu algoritmo em finção de p? 


5,2 VARIÁVEIS ALEATÓRIAS INDICADORAS 


Para analisar muitos algoritmos, inclusive o problema da contratação, usamos variáveis aleatórias indicadoras. 
Variáveis aleatórias indicadoras nos dão um método conveniente para converter probabilidades em expectativas. 
Suponha que temos um espaço amostral S e um evento 4. Então, a variável aleatória indicadora I(A4) associada ao 
evento 4 é definida como 


1 se À ocorrer, 


HA)= (5.1) 


(0) se À não ocorrer. 

Como um exemplo simples, vamos determinar o número esperado de caras que obtemos quando lançamos uma 
moeda não viciada. Nosso espaço amostral é S = (H, T: com Pr 4H! = Pr (7) = 1/2. Então, podemos definmr uma 
variável aleatória indicadora X,, associada ao resultado “cara” do lançamento da moeda, que é o evento H. Essa 
variável conta o número de caras obtidas nesse lançamento, e é 1 se a moeda der cara, caso contrário é O. Escrevemos 


X. = HH) 


H 
1 se H ocorrer, 


0) se T ocorrer. 


O número esperado de caras obtidas em um lançamento da moeda é simplesmente o valor esperado de nossa 
variável indicadora X,,: 


EX] = EH 

= 1-.PrlH)+0-Pr(T) 
1: (1/2) +0-(1/2) 
= 2 


Desse modo, o número esperado de caras obtidas por um lançamento de uma moeda não viciada é 1/2. Como 
mostra o lema a seguir, o valor esperado de uma variável aleatória indicadora associada a um evento 4 é igual à 
probabilidade de 4 ocorrer. 


Lema 5.1 
Dado um espaço amostral S e um evento 4 no espaço amostral S, seja X, = IA). Então, E(X,) = Pr(4). Prova Pela 
definição de variável aleatória indicadora da equação (5.1) e pela definição de valor esperado, temos 
EX] = EMA] E 
1. Pr(AJ + O. Pr(4) 
= PrlA), 


onde 4 denota S — 4, o complemento de 4. 


Embora variáveis aleatórias indicadoras possam parecer incômodas para uma aplicação como a contagem do 
número esperado de caras no lançamento de uma única moeda, elas são úteis para analisar situações em que realizamos 
testes aleatórios repetidos. Por exemplo, as variáveis aleatórias indicadoras nos dão um caminho simples para chegar ao 
resultado da equação (C.37). Nessa equação, calculimos o número de caras em n lançamentos da moeda, 
considerando separadamente a probabilidade de obter O cara, 1 cara, 2 caras etc. Ao contrário, o método mais simples 
proposto na equação (C.38) utiliza implicitamente variáveis aleatórias indicadoras. Tornando esse argumento mais 
explícito, fazemos X, a variável aleatória indicadora associada ao evento no qual o i-ésimo lançamento dá cara: X, = fo 


i-ésimo lançamento resulta no evento H!. Seja X a variável aleatória que denota o número total de caras nos n 
lançamentos da moeda, de modo que 


Desejamos calcular o número esperado de caras; para isso, tomamos a esperança de ambos os lados da equação 
anterior para obter 


Essa equação dá a esperança da soma de n variáveis aleatórias indicadoras. Pelo Lema 5.1, podemos calcular 
facilmente a esperança de cada uma das variáveis aleatórias. Pela equação (C.21) — linearidade de esperança — é 
fácil calcular a esperança da soma: ela é igual à soma das esperanças das n variáveis aleatórias. A linearidade de 
esperança torna a utilização das variáveis aleatórias indicadoras uma técnica analítica poderosa; ela se aplica até mesmo 
quando existe dependência entre as variáveis aleatórias. Agora é fácil calcular o número esperado de caras: 


EX] = Eb X 


Assim, em comparação com o método empregado na equação (C.37), as variáveis aleatórias indicadoras 
simplificam muito o cálculo. Utilizaremos variáveis aleatórias indicadoras em todo este livro. 


Análise do problema da contratação com a utilização de variáveis aleatórias indicadoras 


Voltando ao problema da contratação, agora desejamos calcular o número esperado de vezes que contratamos um 
novo auxiliar de escritório. Para usar uma análise probabilística, supomos que os candidatos chegam em ordem 
aleatória, como discutimos na seção anterior. (Veremos na Seção 5.3 como descartar essa premissa.) Seja X a variável 
aleatória cujo valor é igual ao número de vezes que contratamos um novo auxiliar de escritório. Então, poderemos 
aplicar a definição de valor esperado da equação (C€.20) para obter 


EI] = Sox Px =x), 


mas esse cálculo seria incômodo. Em vez disso, utilizaremos variáveis aleatórias indicadoras para simplificar bastante o 
cálculo. 

Para usar variáveis aleatórias indicadoras, em vez de calcular E[X | definindo uma única variável associada ao 
número de vezes que contratamos um novo auxiliar de escritório, definimos n variáveis relacionadas com a contratação 
ou não contratação de cada candidato específico. Em particular, tomamos X, como a variável aleatória indicadora 
associada ao evento em que o i-ésimo candidato é contratado. Desse modo, 


X. = Ifcandidato i é contratado) 


1 


1 se candidato 1 é contratado, 


O — secandidato i não é contratado, 


X=K+XK + +X, (5.2) 
Pelo Lema 5.1, temos que 
ELX,] = Pr fo candidato i é contratado) , 


e, portanto, devemos calcular a probabilidade de as linhas 5-6 de Hrre-Assistanr serem executadas. 

O candidato i é contratado, na linha 6, exatamente quando ele é melhor que cada um dos candidatos 1 ai — 1. 
Como supomos que os candidatos chegam em ordem aleatória, os primeiros i candidatos apareceram em ordem 
aleatória. Qualquer um desses i primeiros candidatos tem igual probabilidade de ser o mais bem qualificado até o 
momento. O candidato i tem uma probabilidade 1/i de ser mais bem qualificado que os candidatos 1 a i — 1 e, assim, 
uma probabilidade 1/i de ser contratado. Pela Lema 5.1, concluímos que 


E[X] = 1/i. (5.3) 


Agora podemos calcular E[X]: 
E[X] = ED X (pela equação (5.2)) 
=] 
— 3 E[X ] (por linearidade da expectativa) 
= 


= s 1/1 (pela equação (5.3)) 
t=] 
= Inn+0O(1) (pela equação A.7)). 


Apesar de entrevistarmos n pessoas, na realidade só contratamos aproximadamente ln n 
delas, em média. Resumimos esse resultado no lema a seguir. 


Lema 5.2 


Considerando que os candidatos sejam apresentados em ordem aleatória, o algoritmo Hire-A ssistanr tem um custo total 
de contratação O(c, ln n) no caso médio. 


Prova O limite decorre imediatamente de nossa definição do custo de contratação e da equação (5.5), que mostra que 
o número esperado de contratações é aproximadamente hn n. 


O custo de contratação do caso médio é uma melhoria significativa em relação ao custo de contratação do pior 
caso, O(n c,). 


Exercícios 


5.2-1 Em Hre-Assistanr, supondo que os candidatos sejam apresentados em ordem aleatória, qual é a probabilidade 
de você contratar exatamente uma vez? Qual é a probabilidade de você contratar exatamente n vezes? 


5.2-2. Em Hre-Assistanr, supondo que os candidatos sejam apresentados em ordem aleatória, qual é a probabilidade 
de você contratar exatamente duas vezes? 


5.2-3 Use variáveis aleatórias indicadoras para calcular o valor esperado da soma de n dados. 


5.2-4 Use variáveis aleatórias indicadoras para resolver o problema a seguir, conhecido como problema da 
chapelaria. Cada um dos n clientes entrega um chapéu ao funcionário da chapelaria em um restaurante. O 
funcionário devolve os chapéus aos clientes em ordem aleatória. Qual é o número esperado de clientes que 
recebem de volta seus próprios chapéus? 


5.2-5 Seja A[1.. n] um arranjo de n números distintos. Se i <j e Ali] > Al], então o par (i, j) é denominado 
inversão de 4. (Veja no Problema 2-4 mais informações sobre inversões.) Suponha que os elementos de A 
formem uma permutação aleatória uniforme de (1, 2, ... , n). Use variáveis aleatórias indicadoras para calcular 
o número esperado de inversões. 


5.3 ALGORITMOS ALEATORIZADOS 


Na seção anterior, mostramos como conhecer uma distribuição para as entradas pode nos ajudar a analisar o 
comportamento do caso médio de um algoritmo. Muitas vezes, não temos tal conhecimento, o que impossibilita uma 
análise do caso médio. Como mencionamos na Seção 5.1, talvez possamos usar um algoritmo aleatorizado. 

No caso de um problema como o da contratação, no qual é útil considerar que todas as permutações da entrada 
são igualmente prováveis, uma análise probabilística pode orientar o desenvolvimento de um algoritmo aleatorizado. Em 
vez de supor uma distribuição de entradas, impomos uma distribuição. Em particular, antes de executar o algoritmo, 
permutamos aleatoriamente os candidatos, de modo a impor a propriedade de cada permutação ser igualmente 
provável. Embora tenhamos modificado o algoritmo, ainda esperamos contratar um novo auxiliar de escritório 
aproximadamente ln n vezes. Porém, agora esperamos que seja esse o caso para qualquer entrada, e não somente 
para entradas obtidas de uma distribuição particular. 

Vamos explorar um pouco mais a distinção entre análise probabilística e algoritmos aleatorizados. Na Seção 5.2 
afirmamos que, supondo que os candidatos se apresentem em ordem aleatória, o número esperado de vezes que 
contratamos um novo auxiliar de escritório é aproximadamente In n. Observe que aqui o algoritmo é determinístico; para 
qualquer entrada particular, o número de vezes que contratamos um novo auxiliar de escritório é sempre o mesmo. 
Além disso, o número de vezes que contratamos um novo auxiliar de escritório é diferente para entradas diferentes e 
depende das classificações dos diversos candidatos. Visto que esse número depende apenas das classificações dos 
candidatos, podemos representar uma entrada particular fazendo uma lista ordenada das classificações dos candidatos, 


isto é, (ordenação(1), ordenação(2), ..., ordenação(n)). Dada a lista de classificações 4, = (1,2,3,4,5,6,7,8,9, 
10), um novo auxiliar de escritório é sempre contratado 10 vezes, já que cada candidato sucessivo é melhor que o 
anterior, e as linhas 5-6 são executadas em cada iteração. Dada a lista de classificações 4, = (10, 9,8, 7,6,5,4,3,2, 
1), um novo auxiliar de escritório é contratado apenas uma vez, na primeira iteração. Dada uma lista de classificações 
A,=(5,2, 1,8, 4,7, 10,9, 3, 6), um novo auxiliar de escritório é contratado três vezes após as entrevistas com os 
candidatos classificados como 5, 8 e 10. Lembrando que o custo de nosso algoritmo depende de quantas vezes 
contratamos um novo auxiliar de escritório, vemos que existem entradas custosas, como 4,, entradas econômicas, 
como 4,, e entradas moderadamente custosas, como 4,. 

Por outro lado, considere o algoritmo aleatorizado que primeiro permuta os candidatos e depois determina o 
melhor candidato. Nesse caso, a aleatoriedade está no algoritmo, e não na distribuição de entradas. Dada uma entrada 
específica, digamos a entrada 4, citada, não podemos dizer quantas vezes o máximo será atualizado porque essa 
quantidade é diferente a cada execução do algoritmo. A primeira vez em que executamos o algoritmo sobre 4, ele pode 
produzir a permutação 4, e executar 10 atualizações; porém, na segunda vez em que executamos o algoritmo, podemos 
produzir a permutação 4, e executar apenas uma atualização. Na terceira vez em que o executamos, podemos produzir 
algum outro número de atualizações. A cada vez que executamos o algoritmo, a execução depende das escolhas 
aleatórias feitas, e ela provavelmente será diferente da execução anterior do algoritmo. Para esse algoritmo e muitos 
outros algoritmos aleatorizados, nenhuma entrada específica induz seu comportamento do pior caso. Nem mesmo 
o seu pior inimigo poderá produzir um arranjo de entrada ruim, já que a permutação aleatória torna irrelevante a ordem 
de entrada. O algoritmo aleatorizado só funcional mal se o gerador de números aleatórios produzir uma permutação 
“azarada”. 

No caso do problema da contratação, a única alteração necessária no código é a permutação aleatória do arranjo. 


RANDOMIZED-HIRE-ASISTANT(n) 
permutar aleatoriamente a lista de candidatos 
melhor = O // o candidato O é um candidato fictício menos qualificado 
fori=1] ton 
entrevistar candidato i 
if candidato i é melhor que candidato melhor 
melhor = i 
contratar candidato i 


JOR 


Com essa mudança simples, criamos um algoritmo aleatorizado cujo desempenho corresponde àquele obtido 
considerando que os candidatos se apresentavam em ordem aleatória. 


Lema 5.3 


O custo de contratação esperado do procedimento Ranpomizen-Hire-A ssistant é O(c, In n1). 


Prova Depois de permutar o arranjo de entrada, chegamos a uma situação idêntica à da análise probabilística de Hire- 
ASSISTANT. 


A comparação entre os Lemas 5.2 e 5.3 destaca a diferença entre análise probabilística e algoritmos aleatorizados. 
No Lema 5.2, fazemos uma suposição sobre a entrada. No Lema 5.3, não fazemos tal suposição, embora aleatorizar a 
entrada demore algum tempo adicional. Para manter a consistência com a terminologia que adotamos, expressamos o 
Lema 5.2 em termos do custo de contratação do caso médio e o Lema 5.3 em termos do custo de contratação 
esperado. No restante desta seção, discutiremos algumas questões relacionadas com a permutação aleatória das 
entradas. 


Permutação aleatória de arranjos 


Muttos algoritmos aleatorizados aleatorizam a entrada permutando o arranjo de entrada dado. (Existem outras 
maneiras de usar aleatorização.) Aqui, discutiremos dois métodos para esse fim. Supomos que temos um arranjo 4 que, 
sem perda de generalidade, contém os elementos 1 a n. Nossa meta é produzir uma permutação aleatória do arranjo. 

Um método comum é atribuir a cada elemento A[i] do arranjo uma prioridade aleatória P[i] e depois ordenar os 
elementos de 4 de acordo com essas prioridades. Por exemplo, se nosso arranjo inicial for 4 = (1,2,3,4)e 
escolhermos as prioridades aleatórias P = (36, 3, 62, 19), produziremos um arranjo B = (2, 4, 1, 3), já que a segunda 
prioridade é a menor, seguida pela quarta, depois pela primeira e finalmente pela terceira. Denominamos esse 
procedimento Permurte-By-SorrinG: 


PerMUTE-By-SORTING(A) 


1 n=A.comprimento 

2 seja P[1 ::1n] um novo arranjo 

3 fori=1 ton 

4 P[i] = RanDOM(1, nº) 

5 ordenar A, usando P como chaves de ordenação 


A linha 4 escolhe um número aleatório entre 1 e n,. Usamos uma faixa de 1 a n, para que seja provável que todas 
as prioridades em P sejam únicas. (O Exercício 5.3-5 pede que você prove que a probabilidade de todas as entradas 
serem únicas é, no mínimo, 1 — 1/n, e o Exercício 5.3-6 pergunta como implementar o algoritmo ainda que duas ou mais 
prioridades sejam idênticas.) Vamos supor que todas as prioridades são únicas. 

A etapa demorada nesse procedimento é a ordenação na linha 5. Como veremos no Capítulo 8, se usarmos uma 
ordenação por comparação, a ordenação demorará o tempo (n lg n). Podemos atingir esse limite inferior, já que vimos 
que a ordenação por intercalação demora o tempo Q(n lg n). (Veremos na Parte II outras ordenações por comparação 
que tomam o tempo Q(n lg n). O Exercício 8.3-4 pede que você resolva o problema muito semelhante de ordenar 
números na faixa O a n;, — 1 no tempo O(n).) Depois da ordenação, se P[i] for a j-ésima menor prioridade, então Afi] 
encontra-se na posição j da saída. Dessa maneira, obtemos uma permutação. Resta provar que o procedimento produz 
uma permutação aleatória uniforme, isto é, que a probabilidade de ele produzir cada permutação dos números 1 a n 
é a mesma. 


Lema 5.4 


O procedimento Permur:-By-Sorrino produz uma permutação aleatória uniforme da entrada, admitindo que todas as 
prioridades são distintas. 


Prova Começamos considerando a permutação particular na qual cada elemento Afi] recebe a i-ésima menor 
prioridade. Mostraremos que essa permutação ocorre com probabilidade de exatamente 1/n!. Para i = 1,2,...,n, seja 
E, o evento em que o elemento A[i] recebe a i-ésima menor prioridade. Então, desejamos calcular a probabilidade de 
que, para todo i, ocorre o evento E,, que é 


Pr(E,NE,NE, NNE NE. 


Usando o Exercício C.2-5, essa probabilidade é igual a 


Pr(E)-Pr(E, | E)-PriE, | E,NEJ-PrtE, IE,NE,NE) 
= PriE, | ENE, NNE) PrfE, EN NEj 


Temos que Pr (E,) = 1/n porque essa é a probabilidade de uma prioridade escolhida aleatoriamente em um conjunto 
de n ser a menor prioridade. Em seguida, observamos que Pr (E, | E,; = 1/(n — 1) porque, dado que o elemento 4[1] 
tem a menor prioridade, cada um dos n — 1 elementos restantes tem igual chance de ter a segunda menor prioridade. 


Em geral, para i = 2,3, ..., n, temos que PrfE, |EINE2N.. NE =1M(n—i+ Ih, visto que, dado que os 
elementos A[1] até A[i — 1] têm as i — 1 menores prioridades (em ordem), cada um dos n — (i — 1) elementos restantes 
tem igual chance de ter a i-ésima menor prioridade. Assim, temos 


aah 


e mostramos que a probabilidade de obter a permutação identidade é 1/n!. 

Podemos estender essa prova a qualquer permutação de prioridades. Considere uma permutação fixa qualquer s = 
(s(1), s(2), ..., s(n)) do conjunto (1, 2, ..., ny. Vamos denotar por r, a classificação da prioridade atribuída ao elemento 
Ali], onde o elemento com a ;-ésima menor prioridade tem a classificação j. Se definirmos Ei como o evento no qual o 
elemento A[i] recebe a s(i)-ésima menor prioridade ou r, = s(i), a mesma prova ainda se aplica. Portanto, se 
calcularmos a probabilidade de obter qualquer permutação específica, o cálculo será idêntico ao apresentado antes, de 
modo que a probabilidade de obter essa permutação também será 1/n!. 


1 


n 
1 


/ 
n! 


PE, NENE, NNE NE)= 


Você poderia pensar que, para provar que uma permutação é uma permutação aleatória uniforme, é suficiente 
mostrar que, para cada elemento A[i], a probabilidade de ele terminar na posição j é 1/n. O Exercício 5.3-4 mostra que 
essa condição mais fraca é, de fato, insuficiente. 

Um método melhor para gerar uma permutação aleatória é permutar o arranjo dado no lugar. O procedimento 
Ranpomize-In-PLace faz isso no tempo O(n). Em sua i-ésima iteração, o procedimento escolhe o elemento A[i] 
aleatoriamente entre os elementos A[i] e 4[n]. Após a i-ésima iteração, A[i] nunca é alterado. 


RANDOMIZE-IN-PLACE(A) 


1 n = A.comprimento 
2 fori=lton 
o trocar Ali] com A[RANDOM(i, nn)] 


Usaremos um invariante de laço para mostrar que o procedimento Ranpomize-In-PLace produz uma permutação 
aleatória uniforme. Uma k-permutação sobre um conjunto de n elementos, é uma sequência que contém k dos n 
elementos, sem nenhuma repetição. (Consulte o Apêndice C.) Há n!/(n — k)! dessas permutações k possíveis. 


Lema 5.5 


O procedimento Ranbomize-In-PL ace calcula uma permutação aleatória uniforme. 
Prova Usamos o seguinte mmvariante de laço: 


Imediatamente antes da i-ésima iteração do laço for das linhas 2-3, para cada (i — 1)-permutação possível dos n 
elementos, o subarranjo 4[1 .. i— 1] contém essa (i — 1)-permutação com probabilidade (n — i + D!/n!. 


Precisamos mostrar que esse invariante é verdadeiro antes da primeira iteração do laço, que cada iteração do laço 
mantém o invariante e que o invariante fornece uma propriedade útil para mostrar correção quando o laço termina. 


Inicialização: Considere a situação imediatamente antes da primeira iteração do laço, de modo que i = 1. O 
invariante de laço diz que, para cada 0-permutação possível, o subarranjo 4[1 .. 0] contém essa 0-permutação 
com probabilidade (n — i + D!/n! = n!n! = 1. O subarranjo A[1 .. 0] é um subarranjo vazio, e uma 0- 
permutação não tem nenhum elemento. Assim, A[1 .. 0] contém qualquer 0-permutação com probabilidade 1, e 
o invariante de laço é válido antes da primeira iteração. 


Manutenção: Supomos que, imediatamente antes da i-ésima iteração, cada (i — 1) — permutação possível 


aparece no subarranjo 4[1 .. i — 1] com probabilidade (n — i + 1)!/n!, e mostraremos que, após a i-ésima 
iteração, cada i-permutação possível aparece no subarranjo A[1 .. 7] com probabilidade (n — D)!/n!. Então, 
incrementar i para a próxima iteração mantém o invariante de laço. Vamos examinar a i-ésima iteração. 
Considere uma i-permutação específica e denote os elementos que ela contém por (x,, x,, ..., x;). Essa 
permutação consiste em uma (i — 1)-permutação (x, ..., x,— 1) seguida pelo valor x, que o algoritmo insere em 
Ali]. Seja E, o evento no qual as primeiras i — 1 iterações criaram a (i — 1)-permutação (x,, ..., x, — 1) 
específica em A[1... i— 1]. Pelo mvariante de laço, Pr (E,j = (n — i+ 1)!/n!. Seja E, o evento no qual a i-ésima 
iteração insere x, na posição A[i]. A i-permutação (x ,, ..., x,) aparece em 4[1 .. i] exatamente quando ocorrem 
E, e E,, e assim desejamos calcular Pr (E, N E,). Usando a equação (C.14), temos 


PriE,NE)=PriB,|Ej) PrtE, 


A probabilidade Pr (E, | E, é iguala 1/(n — i + 1) porque, na linha 3, o algoritmo escolhe x, aleatoriamente entre 
osn—i+ 1 valores nas posições A[i.. n]. Desse modo, temos 


PIE, NE) = PrlE, IE JPrE) 


mi 


n-1+1 n! 
(nt)! 
o 7 
Término: No térmmo, i = n + 1, e temos que o subarranjo 4[1 . . n] é uma n-permutação dada com 


probabilidade (n — n)!/n! = 1/n!. 


Assim, RanDomizeD-In-PLace produz uma permutação aleatória uniforme. 


Muitas vezes, um algoritmo aleatorizado é o modo mais simples e mais eficiente de resolver um problema. 
Usaremos algoritmos aleatorizados ocasionalmente em todo o livro. 


Exercícios 


5.3-1 


5.3-2 


O professor Marceau faz objeções ao invariante de laço usado na prova do Lema 5.5. Ele questiona se o 
invariante de laço é verdadeiro antes da primeira iteração. Seu raciocínio é que poderíamos, com a mesma 
facilidade, declarar que um subarranjo vazio não contém nenhuma 0-permutação. Portanto, a probabilidade 
de um subarranjo vazio conter uma 0-permutação deve ser O, o que invalida o invariante de laço antes da 
primeira iteração. Reescreva o procedimento Ranpomize-In-PLace, de modo que seu invariante de laço 
associado se aplique a um subarranjo não vazio antes da primeira iteração, e modifique a prova do Lema 5.5 
para o seu procedimento. 


O professor Kelp decide escrever um procedimento que produzirá aleatoriamente qualquer permutação além 
da permutação identidade. Ele propõe o seguinte procedimento:) 


5.3-3 


5.3-4 


5.3-5 


5.3-6 


5.3-7 


PeRMUTE-WITHOUT-IDENTITY(A) 

1n = A.comprimento 

2fori=lton-—l 

a trocar A[i] por AJRANDOM(i + 1,1n)] 


Esse código faz o que professor Kelp pretende? 


Suponha que, em vez de trocar o elemento A[i] por um elemento aleatório do subarranjo Afi .. n], nós o 
trocássemos por um elemento aleatório de qualquer lugar no arranjo: 


PerMUTE-WiITH-ALI(A) 

1 1n = A.comprimento 

2 fori=lton 

3 trocar A[i] por AJRANDOM(1, n1)] 


Esse código produz uma permutação aleatória uniforme? Justifique sua resposta. 


O professor Armstrong sugere o seguinte procedimento para gerar uma permutação aleatória uniforme: 


PERMUTE-By-CICLING(A) 

1 n = A.comprimento 

2 seja B[1..1n] um novo arranjo 
3 deslocamento = RANDOM(1, 1) 
4fori=lton 

5 dest = 1 + deslocamento 
6 if dest > n 

7 dest = dest — n 
8 Bldest| = Afi] 

9 return B 


Mostre que cada elemento A[i] tem uma probabilidade 1/n de terminar em qualquer posição particular em B. 
Então, mostre que o professor Armstrong está equivocado, demonstrando que a permutação resultante não é 
uniformemente aleatória. 


* 
Prove que, no arranjo P do procedimento Permure-By-Sorrins, a probabilidade de todos os elementos serem 


únicos é, no mínimo, 1 — 1/n. 


Explique como implementar o algoritmo Permure-By-Sorrrns para tratar o caso no qual duas ou mais prioridades 
são idênticas. Isto é, seu algoritmo deve produzir uma permutação aleatória uniforme, mesmo que duas ou 
mais prioridades sejam idênticas. 


Suponha que queiramos criar uma amostra aleatória do conjunto (1, 2, 3, ..., nt, isto é, um subconjunto S 
de m elementos, onde O < m < n, tal que cada subconjunto m tenha igual probabilidade de ser criado. Um 


modo seria fazer A[i] = i para i = 1,2, 3, ..., n, chamar Ranpomve-In-PLace(4), e depois tomar só os 
primeiros m elementos do arranjo. Esse método fária n chamadas ao procedimento Ranvom. Se n for muito 
maior do que m, podemos criar uma amostra aleatória com um número menor de chamadas a Ranvom. Mostre 
que o seguinte procedimento recursivo retorna um subconjunto aleatório m de S (1, 2, 3, ..., nt, no qual cada 
subconjunto m é igualmente provável, enquanto faz somente m chamadas a Ranpom: 


RANDOM-SAMPLE(M, n) 
Jifmi== 
Z return () 
3 else S = RANDOM-SAMPLE(M — 1,n — 1) 
1= RANDOM(1,n) 
ifies 
S=SUtln) 
elseS= SU fi 


O JUR 


return S 


5,4 x ANÁLISE PROBABILÍSTICA E USOS ADICIONAIS DE VARIÁVEIS ALEATÓRIAS 
INDICADORAS 


Esta seção avançada ilustra um pouco mais a análise probabilística por meio de quatro exemplos. O primeiro 
determina a probabilidade de, em uma sala com k pessoas, duas delas compartilharem a mesma data de aniversário. O 
segundo exemplo examina o que acontece quando lançamos aleatoriamente bolas em caixas. O terceiro investiga 
“sequências” de caras consecutivas no lançamento de moedas. O exemplo final analisa uma variante do problema da 
contratação, na qual você tem de tomar decisões sem entrevistar realmente todos os candidatos. 


5.4.1 O PARADOXO DO ANIVERSÁRIO 


Nosso primeiro exemplo é o paradoxo do aniversário. Quantas pessoas devem estar em uma sala antes de 
existir uma chance de 50% de duas delas terem nascido no mesmo dia do ano? A resposta é um número de pessoas 
surpreendentemente pequeno. O paradoxo é que esse número é de fato muito menor que o número de dias do ano ou 
até menor que metade do número de dias do ano, como veremos. 

Para responder à pergunta, indexamos as pessoas na sala com os inteiros 1, 2, ..., k, onde k é o número de 
pessoas na sala. Ignoramos a questão dos anos bissextos e supomos que todos os anos têm n = 365 dias. Para i= 1,2, 
..., k, seja b; o dia do ano no qual cai o aniversário da pessoa i, onde 1 < b, <n. Supomos também que os aniversários 
estão uniformemente distribuídos pelos n dias do ano, de modo que Pr tb, = r) = Inparai=1,2,..,ker=1,2,.., 
hn. 

A probabilidade de que duas pessoas dadas, digamos i e j, tenham datas de aniversário coincidentes depende do 
fato de a seleção aleatória de aniversários ser independente. De agora em diante, supomos que os aniversários são 
independentes, de modo que a probabilidade de o aniversário de i e o aniversário de j caírem ambos no dia 7 é 


Prib=reb =) = Prib,=r) Prlb,=r) 
= 1/n*. 


Assim, a probabilidade de ambos caírem mesmo dia é 


II 
Má 
fd 
so 
s— 


= d/n. (5.6) 


Mais intuitivamente, uma vez escolhido b,, a probabilidade de D; ser escolhido como o mesmo dia é 1/n. Assim, a 
probabilidade de i e j terem o mesmo dia de aniversário é igual à probabilidade de o aniversário de um deles cair em um 
determinado dia. Porém, observe que essa coincidência depende de supor que os dias de aniversário são 
independentes. 

Podemos analisar a probabilidade de, no mínimo, 2 entre k pessoas terem aniversários coincidentes examinando o 
evento complementar. A probabilidade de, no mínimo, dois dos aniversários coincidirem é 1 menos a probabilidade de 
todos os aniversários serem diferentes. O evento no qual k pessoas têm aniversários distintos é 


B, =NA, 
i=1 


onde 4, é o evento de o aniversário da pessoa i ser diferente do aniversário da pessoa j para todo j < i. Visto que 
podemos escrever B, = 4, NB, — 1, obtemos da equação (C.16) a recorrência 


Pr(BJ=Pr(B, JPriA,IB, ), (5.7) 


onde tomamos Pr (B,+ = Pr (4,) = 1 como uma condição inicial. Em outras palavras, a probabilidade de que b,, b,, 
..., D, Sejam aniversários distintos é a probabilidade de b,, b,, ..., b,1 serem aniversários distintos vezes a probabilidade 
de que b, Z b, para i= 1,2,...,k— 1, dado que b,, b,, ..., b—! são distintos. 

Se b,, b,, ..., by 1 são distintos, a probabilidade condicional de que b, £ b,parai=1,2,..,k-—- 1 éPr(4,|B, — 
IH =(n>k+ Dn, já que, dos n dias, há n — (k — 1) que não são tomados. Aplicamos iterativamente a recorrência 
(5.7) para obter 


Pr(BJ = Pr(B, JPrlA, IB) 
Pr(B, )) PrIA, | | B, JPrA, IB) 


= Pr(BJPr(A) | BJPrIA, | BJ... PrA, 1 B,,) 


fee 


A desigualdade (3.12),1 + x < e,nos dá 


Pr(B ) < e VE a E essi (k—1)/n 


k as 


RE. 
E A ui ei 
& Lf2 


quando —k(k — 1)/2n < In(1/2). A probabilidade de que todos os k aniversários sejam distintos é, no máximo, 1/2 
quando k(k — 1) > 2n ln 2 ou, resolvendo a equação quadrática, quando k >(1+ VI+*(8 In 2) n/2. Para n = 365, 


devemos ter k > 23. Assim, se no mínimo 23 pessoas estiverem em uma sala, a probabilidade de que ao menos duas 
pessoas tenham a mesma data de aniversário é, no mínimo, 1/2. Em Marte, um ano dura 669 dias marcianos; então, 
seriam necessários 31 marcianos para conseguirmos o mesmo efeito. 


Uma análise usando variáveis aleatórias indicadoras 


Podemos usar variáveis aleatórias indicadoras para fornecer uma análise mais simples, embora aproximada, do 
paradoxo do aniversário. Para cada par (i, j) das k pessoas na sala, definimos a variável aleatória indicadora X,,, para 1 
<i<j<k,por 
X. = I(apessoai e a pessoa j têm o mesmo dia de aniversário) 

1 seapessoaí ea pessoa j têm o mesmo dia de aniversário, 


O outro modo. 
Pela equação (5.6), a probabilidade de duas pessoas terem aniversários coincidentes é 1/n e, assim, pelo Lema 
5.1, temos 


EIX, = Pr (pessoa ie pessoa j têm o mesmo dia aniversário) 
=" 1/n. 


Sendo X a variável aleatória que conta o número de pares de indivíduos que têm a mesma data de aniversário, 
temos 


k k 
X=5,),X, 


i=1 j=iH 


Tomando as esperanças de ambos os lados e aplicando a linearidade de expectativa, obtemos 


EX] = ED,),X, 


i=1 j=ih 


k k 
— Epa 


“TEIAS 


2 tm 
k(k — 1) 
2n 


Portanto, quando k(k — 1) > 2n, o número esperado de pares de pessoas com a mesma data de aniversário é, no 
mínimo, 1. Assim, se tivermos no mínimo V2n+ 1 indivíduos em uma sala, poderemos esperar que no mínimo dois deles 
façam aniversário no mesmo dia. Para n = 365, se k = 28, o número esperado de pares com o mesmo dia de 
aniversário é (28 - 2/2. : 365) = 1,0356. Assim, com no mínimo 28 pessoas, esperamos encontrar no mínimo um 
par de aniversários coincidentes. Em Marte, onde um ano corresponde a 669 dias marcianos, precisaríamos de no 
mínimo 38 marcianos. 

A primeira análise, que usou somente probabilidades, determinou o número de pessoas necessárias para que a 
probabilidade de existir um par de datas de aniversário coincidentes exceda 1/2, e a segunda análise, que empregou 


variáveis aleatórias indicadoras, determinou o número tal que o número esperado de aniversários coincidentes é 1. 
Embora os números exatos de pessoas sejam diferentes nas duas situações, eles são assintoticamente iguais: On) 


5.4.2 BOLAS E CAIXAS 


Considere um processo no qual lançamos aleatoriamente bolas idênticas em b caixas, numeradas 1, 2, ..., b. Os 
lançamentos são independentes, e em cada lançamento a bola tem igual probabilidade de terminar em qualquer caixa. A 
probabilidade de uma bola lançada cair em qualquer caixa dada é 1/b. Assim, o processo de lançamento de bolas é 
uma sequência de tentativas de Bernoulli (consulte o Apêndice C, Seção C.4) com uma probabilidade de sucesso 1/b, 
onde sucesso significa que a bola cai na caixa dada. Esse modelo é particularmente útil para analisar hashing 
(espalhamento) (veja o Capítulo 11), e podemos responder a uma variedade de perguntas interessantes sobre o 
processo de lançamento de bolas. (O Problema C-1 faz perguntas adicionais sobre bolas e caixas.) 

Quantas bolas caem em uma determinada caixa? O número de bolas que caem em uma caixa dada segue a 
distribuição binomial b(k; n, 1/b). Se lançarmos n bolas, a equação (C.37) nos informa que o número esperado de 
bolas que caem na caixa dada é n/b. 

Quantas bolas devemos lançar, em média, até que uma caixa dada contenha uma bola? O múmero de 
lançamentos até a caixa dada receber uma bola segue a distribuição geométrica com probabilidade 1/b e, pela equação 
(C.32), o número esperado de lançamentos até o sucesso é 1/(1/b) = b. 

Quantas bolas devemos lançar até toda caixa conter no mínimo uma bola? Vamos chamar um lançamento no 
qual uma bola cai em uma caixa vazia de “acerto”. Queremos saber o número esperado n de lançamentos necessários 
para conseguir b acertos. 

Usando os acertos, podemos dividir os n lançamentos em fases. A i-ésima fase consiste nos lançamentos depois 
do (i — 1)-ésimo acerto até o i-ésimo acerto. A primeira fase consiste no primeiro lançamento, já que um acerto já está 
garantido quando todas as caixas estão vazias. Para cada lançamento durante a i-ésima fase, i — 1 caixas contêm bolas 
eb-i+ caixas estão vazias. Assim, para cada lançamento na i-ésima fase, a probabilidade de obter um acerto é (b — 
i+ D/b. 

Seja n, o número de lançamentos na i-ésima fase. Assim, o número de lançamentos exigidos para obter b acertos é 


b 
) NO; 
=1 


n=n ! Cada variável aleatória n; tem uma distribuição geométrica com probabilidade de sucesso (b — 
i+ 1)/b e, pela equação (C.32), temos 


bo 
Bidonil 


Por linearidade de esperança, 


En ]= 


En] = EIS 4, 


= b(Inb+O(1)) (pela equação (A.7)). 


Portanto, são necessários aproximadamente b In b lançamentos antes de podermos esperar que toda caixa tenha 
uma bola. Esse problema também é conhecido como problema do colecionador de cupons, que diz que uma pessoa 
que tenta colecionar cada um de b cupons diferentes espera adquirir aproximadamente b In b cupons obtidos 
aleatoriamente para ter sucesso. 


5.4.3 SEQUÊNCIAS 


Suponha que você lance uma moeda não viciada n vezes. Qual é a sequência mais longa de caras consecutivas que 
você espera ver? A resposta é Q(lg nn), como mostra a análise a seguir. 

Primeiro, provamos que o comprimento esperado da sequência mais longa de caras é O(lg n). A probabilidade de 
cada lançamento de moeda ser uma cara é 1/2. Seja 4,. o evento no qual uma sequência de caras de comprimento no 
mínimo k começa com o i-ésimo lançamento de moeda ou, mais precisamente, o evento no qual os k lançamentos 
consecutivos de moedas i, i + 1,..., i+k — 1 produzem somente caras, onde Il <k<nel<i<n-—k+ 1.Como os 
lançamentos de moedas são mutuamente independentes, para qualquer evento dado 4,., a probabilidade de todos os k 
lançamentos serem caras é 


Pr(AJ=1/2. (5.8) 


e, portanto, a probabilidade de uma sequência de caras de comprimento no mínimo iguala 2 lg n começar na 
posição i é bastante pequena. Há, no máximo, n — 2 lg n+ 1 posições onde tal sequência pode começar. Portanto, 
a probabilidade de uma sequência de caras de comprimento no mínimo 2 lg n começar em qualquer lugar é 


n- 2llgnl+ 1 


< ri 1/n? 
< 5/9 


= 1/n, (5.9) 


n-2llgn|+1 


U Au 
i2|lgn] 


i=1 


Pr 


já que, pela desigualdade de Boole (C.19), a probabilidade de uma união de eventos é no máximo a soma das 
probabilidades dos eventos individuais. (Observe que a desigualdade de Boole é válida até mesmo para eventos como 
esses, que não são independentes.) 

Agora, usamos a desigualdade (5.9) para limitar o comprimento da sequência mais longa. Para j = 0, 1,2,....,n, 
seja L; o evento no qual a sequência mais longa de caras tem comprimento exatamente ;, e seja L o comprimento da 
sequência mais longa. Pela definição de valor esperado, temos 


EIL]= > ,j PríL). (5.10) 
Poderíamos tentar avaliar essa soma usando limites superiores para cada Pr tL,; semelhantes aos que foram 
calculados na desigualdade (5.9). Infelizmente, esse método produziria limites fracos. Porém, podemos usar certa 
intuição adquirida na análise anterior para obter um bom limite. Informalmente, observamos que não há nenhum termo 
individual no somatório da equação (5.10) para o qual ambos os fatores, j e Pr (L,;, são grandes. Por quê? Quando j 
>2 lg n,então Pri L; é muito pequeno e, quando; <2 lg n,então j é razoavelmente pequeno. De um modo 
mais formal, notamos que os eventos L, paraj = 0, 1,...,n são disjuntos e, assim, a probabilidade de uma sequência de 


; EL. 
caras de comprimento no mínimo 2 lg n começar em qualquer lugar é Duseahen !. Pela desigualdade (5.9), 


n é Ex ale 
temos Dera PIE) Ron Além disso, observando que o PriL, Es a temos que duo RL, Assim, obtemos 
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j=0 
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j=0 j=2htgn] 
< 2[lnn|1+n(1/n) 
= Ollgn). 


A probabilidade de uma sequência de caras exceder r lg  n lançamentos diminui rapidamente com 17.Parar>1, 
a probabilidade de uma sequência de no mínimo r lg n caras começar na posição ié 


PrlA, qu) = 1/28] 
e Tim, 


Assim, a probabilidade de a sequência mais longa ser no mínimo r lg n é no máximo iguala n/n,=1/n —1! ou, 
o que é equivalente, a probabilidade de a sequência mais longa ter comprimento menor que 7 lg n é no mínimo 1 — 
ln —1. 

Como exemplo, para n = 1.000 lançamentos de moeda, a probabilidade de termos uma sequência de no mínimo 2 
lg n=20 caras é no máximo 1/ n = 1/1.000. A chance de termos uma sequência mais longa que 3 lg n=30 
caras é no máximo 1/n, = 1/1.000.000. 

Agora, vamos provar um limite complementar inferior: o comprimento esperado da sequência mais longa de caras 
emn lançamentos de moeda é (lg n). Para provar esse limite, procuramos sequências de comprimento s repartindo os n 
lançamentos em aproximadamente n/s grupos de s lançamentos cada. Se escolhermos s = (lg n)/2, poderemos 
mostrar que é provável que no mínimo um desses grupos dê somente caras e, consequentemente, é provável que a 
sequência mais longa tenha comprimento no mínimo igual a s = (lg n). Então, mostramos que a sequência mais longa tem 
comprimento esperado (lg nn). 


Repartimos os n lançamentos de moedas em no mínimo n/lg n)/2 grupos de (lg n)/2 lançamentos 
consecutivos € limitamos a probabilidade de nenhum grupo dar somente caras. Pela equação (5.8), a probabilidade de 
o grupo que começa na posição i dar somente caras é 


Pri, mmol = 1/2000 
> 1/vhn. 


Então, a probabilidade de uma sequência de caras de comprimento no mínimo iguala (lg n)/2 não começar na 
posição i é no máximo 1 — 1 Nn/. Visto que os n/(lg n)2 grupos são formados por lançamentos de moedas 
mutuamente exclusivos e independentes, a probabilidade de cada um desses grupos não ser uma sequência de 
comprimento (lg n)/2 é no máximo 


(-1/Nnt'ten/l =1/ nen 


e ses 1/ NV ns 
e (nngn-Dydh 

e O(e '") 

= O(1/n). 


Para esse argumento, usamos a desigualdade (3.12), 1 + x <e, e o fato, que seria bem interessante você verificar, 
de (2n/lg n — 1) Nn> Ig n para n suficientemente grande. 
Assim, a probabilidade de a sequência mais longa exceder (lg n)/2 é 


A 
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3) PrL)>1-00/n) (5.11) 
i=|lgn)/2[+1 
Agora podemos calcular um limite inferior para o comprimento esperado da sequência mais longa, começando com 
a equação (5.10) e prosseguindo de modo semelhante à nossa análise do limite superior: 
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> 0+ Lis m/2)(1-0(1/n) | (pela desigualdade 5.11) 
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IV 


Como ocorre no caso do paradoxo do aniversário, podemos obter uma análise mais simples, porém aproximada, 
usando variáveis aleatórias indicadoras. Seja X, = (4,3 a variável aleatória indicadora associada a uma sequência de 
caras de comprimento no mínimo k que começa com o i-ésimo lançamento da moeda. Para contar o número total de 
tais sequências, definimos 


n—k+1 


E 2. By 


Tomando esperanças e usando linearidade de esperança, temos 


n—k+1 
EX] = [> X 
i=1 
n—k+1 
ai ds EX] 
i=1 
n—k-+1 
= A PIA, 
hr 


= >» 1/2 
i=1 
n—-k+1 
mo 
Inserindo diversos valores para k, podemos calcular o número esperado de sequências de comprimento k. Se esse 
número for grande (muito maior que 1), esperamos que ocorram muitas sequências de comprimento k, e a 
probabilidade de ocorrer uma é alta. Se esse número for pequeno (muito menor que 1), esperamos que ocorra um 


pequeno número de sequências de comprimento k, e a probabilidade de ocorrer uma é baixa. Se k = c lg n, para 
alguma constante positiva c, obtemos 
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= O(1/n)). 


Se c for grande, o número esperado de sequências de comprimento c lg n é pequeno, e concluímos que é 
improvável que elas ocorram. Por outro lado, se c = 1/2, então obtemos E[X] = Q(1/n,, — !) = Q(n,,), e esperamos 
que exista um número grande de sequências de comprimento (1/2) lg n. Portanto, é provável que ocorra uma sequência 
de tal comprimento. Só por essas estimativas grosseiras, já podemos concluir que o comprimento esperado da 
sequência mais longa é Q(lg nn). 


5.4.4 O PROBLEMA DA CONTRATAÇÃO ON-LINE 


Como exemplo final, examinaremos uma variante do problema da contratação. Suponha agora que não desejamos 
entrevistar todos os candidatos para encontrar o melhor. Também não queremos contratar e demitir à medida que 
encontrarmos candidatos cada vez melhores. Em vez disso, estamos dispostos a aceitar um candidato próximo do 


melhor em troca de contratar exatamente uma vez. Devemos obedecer a um requisito da empresa: após cada entrevista 
temos de oferecer imediatamente o cargo ao candidato ou rejeitá-lo também imediatamente. Qual é a permuta entre 
minimizar a quantidade de entrevistas e maximizar a qualidade do candidato contratado? 

Podemos modelar esse problema da maneira ilustrada a seguir. Após a reunião com um candidato, podemos 
atribuir a cada um deles uma pontuação; seja pontuação(i) a pontuação dada ao i-ésimo candidato, e suponha que não 
há dois candidatos que recebam a mesma pontuação. Depois de entrevistar ; candidatos, sabemos qual dos j 
candidatos tem a pontuação mais alta, mas não sabemos se algum dos n — j candidatos restantes receberá uma 
pontuação mais alta do que aquele. Decidimos adotar a estratégia de selecionar um inteiro positivo k < n, entrevistar e 
depois rejeitar os primeiros k candidatos e, daí em diante, contratar o primeiro candidato que obtiver uma pontuação 
mais alta que todos os candidatos anteriores. Se notarmos que o candidato mais bem qualificado se encontrava entre os 
k primeiros entrevistados, contrataremos o n-ésimo candidato. Formalizamos essa estratégia no procedimento On-LwE- 
Maximum(k, n), que retorna o índice do candidato que desejamos contratar. 


ON-LiNE-MAxIMUM(K, nn) 
1 melhorpontuação = —oo 

És fori=1 tok 

3 if pontuação(i) > melhorpontuação 

E melhorpontuação = pontuação(i) 
5 fori=k+1ton 

6 if pontuação(i) > melhorpontuação 

7 return í 

8 return n 


Desejamos determinar, para cada valor possível de k, a probabilidade de contratarmos o candidato mais bem 
qualificado. Então, escolhemos o k melhor possível e implementamos a estratégia com esse valor. Por enquanto, 
considere k fixo. Seja M(j) = max! <i <; (pontuação(i); a pontuação máxima entre os candidatos 1 a j. Seja S o 
evento no qual temos sucesso na escolha do candidato mais bem qualificado, e seja S; o evento no qual temos sucesso 
quando o candidato mais bem qualificado for o i-ésimo entrevistado. Visto que diversos S, são disjuntos, temos que 


PrtSi = 2,4 PIS). Observando que nunca temos sucesso quando o candidato mais bem qualificado é um dos primeiros 


k, temos que Pr (S;! = 0 para i= 1,2, ..., k. Assim, obtemos 
Pr(S) = 5 PriS,). (5.12) 
i=k+1 


Agora calculamos Pr (S,;. Para ter sucesso quando o candidato mais bem qualificado é o i-ésimo, duas coisas 
devem acontecer. Primeiro, o candidato mais bem qualificado deve estar na posição i, um evento que denotamos por 
B.. Segundo, o algoritmo não deve selecionar nenhum dos candidatos nas posições k + 1 a i — 1, o que acontece 
somente se, para cada j talque k + 1 <; <i-— 1, encontramos pontuação(j;) < melhorpontuação na linha 6. (Como 
as pontuações são exclusivas, podemos ignorar a possibilidade de pontuação(;) = melhorpontuação.) Em outras 
palavras, todos os valores pontuação(k + 1) até pontuação(i — 1) devem ser menores que M(k); se qualquer deles for 
maior que M(k), em vez disso retornaremos o índice do primeiro que for maior. Usamos O, para denotar o evento no 
qual nenhum dos candidatos nas posições k + 1 a i — 1 é escolhido. Felizmente, os dois eventos B, e O, são 
independentes. O evento O, depende apenas da ordenação relativa dos valores nas posições 1 a i — 1, enquanto B, 
depende apenas de o valor na posição i ser maior que todos os valores em todas as outras posições. A ordenação dos 
valores nas posições 1 a i — 1 não afeta o fato de o valor na posição i ser maior que todos eles, e o valor na posição i 
não afeta a ordenação dos valores nas posições 1 a i — 1. Assim, podemos aplicar a equação (C.15) para obter 


Pr (S) = Pr (B,N O) = Pr (BJ Pr(0). 


í í i 


A probabilidade Pr (B,) é claramente 1/n, já que o máximo tem igual probabilidade de estar em qualquer uma das 
n posições. Para o evento O, ocorrer, o valor máximo nas posições 1 a i — 1, que tem a mesma probabilidade de estar 
em qualquer uma dessas i — 1 posições, deve estar em uma das k primeiras posições. Consequentemente, Pr (O, = 
ki — 1) e Pr £S,;) = k/(n (i — 1)). Usando a equação (5.12), temos 


PrlS) = 3 PrlS) 


i=k+ 

n k 
i=kA n(1—1) 
k>x 1 


naent—l 
k n—1 1 
H i=k 1 


Aproximamos por integrais para limitar esse somatório acima e abaixo. Pelas desigualdades (A.12), temos 
n1 n—1 1 n-1 1 


, —dy<> —< = — dx. 
X = É Pr 


A avaliação dessas integrais definidas nos dá os limites 


Eimi-hiy Sb na) 

n n 

que representam um limite bastante preciso para Pr £S$+. Como desejamos maximizar nossa probabilidade de sucesso, 
vamos focalizar a escolha do valor de k que maximiza o limite mferior para Pr (S). (Além do mais, a expressão do limite 
inferior é mais fácil de maximizar que a expressão do limite superior.) Diferenciando a expressão (k/n) (Inn — In k) com 
relação a k, obtemos 


run inje= 

n 

Igualando essa derivada a 0, vemos que maximizamos o limite mferior para a probabilidade quando hn k = Inn — 1 
= In(n/e) ou, o que é equivalente, quando k = n/e. Assim, se implementarmos nossa estratégia com k = n/e, teremos 
sucesso na contratação do nosso candidato mais bem qualificado com probabilidade no mínimo 1/e. 


Exercícios 


5.4-1 Quantas pessoas devem estar em uma sala antes que a probabilidade de alguém ter a mesma data de 
aniversário que você seja no mínimo 1/27? Quantas pessoas devem estar presentes antes de a probabilidade de 
no mínimo duas pessoas fazerem aniversário no dia 4 de julho ser maior que 1/29 


5.4-2 Suponha que lançamos bolas em b caixas até que alguma caixa contenha duas bolas. Cada lançamento é 
independente e cada bola tem a mesma probabilidade de cair em qualquer caixa. Qual é o número esperado 


de lançamentos de bolas? 


543 * 
Para a análise do paradoxo do aniversário, é importante que os aniversários sejam mutuamente independentes 
ou a independência aos pares é suficiente? Justifique sua resposta. 

544 * 
Quantas pessoas devem ser convidadas para uma festa para ser provável que haja três pessoas com a mesma 
data de aniversário? 

545 * 
Qual é a probabilidade de uma cadeia k em um conjunto de tamanho n formar uma k-permutação? Qual é a 
relação dessa pergunta com o paradoxo do aniversário? 

546 * 
Suponha que n bolas sejam lançadas em n caixas, onde cada lançamento é independente e a bola tem igual 
probabilidade de carr em qualquer caixa. Qual é o número esperado de caixas vazias? Qual é o número 
esperado de caixas com exatamente uma bola? 

547 * 
Aprimore o limite inferior para o comprimento da sequência mostrando que, em n lançamentos de uma moeda 
não viciada, a probabilidade de não ocorrer nenhuma sequência mais longa que lg n — 2 lg lg n caras 
consecutivas é menor que 1/n. 

Problemas 

5-1 Contagem probabilística 


Com um contador de b bits, normalmente só podemos contar até 2» — 1. Coma contagem probabilística 
de R. Morris, podemos contar até um valor muito maior, à custa de alguma perda de precisão. 


Interpretamos um contador com valor i como uma contagem n, para i = 0, 1, ..., 2/— 1, onde os n, formam 
uma sequência crescente de valores não negativos. Supomos que o valor micial do contador é O, 
representando uma contagem de n, = 0. A operação In-cremenr funciona de maneira probabilística em um 
contador que contém o valor i. Se i=2b — 1, então a operação informa um erro de estouro (overflow). Caso 
contrário, a operação Increment aumenta 1 no contador com probabilidade 1/(n, + ! — n)) ou deixa o contador 
inalterado com probabilidade 1 — 1(n,+1 —n,). 


Se selecionarmos n, = i para todo i > 0, então o contador é um contador comum. Surgem situações mais 
interessantes se selecionarmos, digamos, n, = 2 “! para i> 0 oun, = F, (o i-ésimo número de Fibonacci — 
consulte a Seção 3.2). 


Para este problema, suponha que, n2» — 1 é suficientemente grande, de modo que a probabilidade de um erro 
de estouro seja desprezível. 


a. Mostre que o valor esperado representado pelo contador após a execução de n operações IncremenT É 
exatamente n. 


A análise da variância da contagem representada pelo contador depende da sequência de n;. Vamos 
considerar um caso simples: n;= 100i para todo i > O. Estime a variância no valor representado pelo 
registrador após a execução de n operações Incremenr. 


Busca em um arranjo não ordenado 


Este problema exammna três algoritmos para procurar um valor x em um arranjo não ordenado 4 que consiste 
em n elementos. 


Considere a seguinte estratégia aleatória: escolha um índice aleatório i em 4. Se A[i] = x, então terminamos; 
caso contrário, continuamos a busca escolhendo um novo índice aleatório em 4. Continuamos a escolher 
índices aleatórios em 4 até encontrarmos um índice j tal que 4[7] = x ou até verificarmos todos os elementos 
de 4. Observe que, toda vez escolhemos um índice no conjunto inteiro de índices, é possível que examinemos 
um dado elemento mais de uma vez. 


a. Escreva pseudocódigo para um procedimento Ranvom-SearcH para implementar a estratégia citada. 
Certifique-se de que o seu algoritmo termina quando todos os índices em 4 já tiverem sido escolhidos. 


b. Suponha que exista exatamente um índice i tal que A[i] = x. Qual é o número esperado de índices em 4 
que devemos escolher antes de encontrarmos x e Ranpom--SearcH terminar? 


c. Generalizando sua solução para a parte (b), suponha que existam k > 1 índices i tais que A[i] = x. Qual é 
o número esperado de índices em 4 que devemos escolher antes de encontrarmos x e Ranpom-SEarcH 
terminar? Sua resposta deve ser uma função de n e k. 


d. Suponha que não exista nenhum índice i tal que A[i] = x. Qual é o número esperado de índices em 4 que 
devemos escolher antes de verificarmos todos os elementos de 4 e Ranvom-SearcH terminar? 


Agora, considere um algoritmo de busca linear determnística, que denominamos Dererminisric-SEARCH. 
Especificamente, o algoritmo procura 4 para x em ordem, considerando A4[1], 4/2], 4/3], ..., A[n] até 
encontrar A[i] = x ou chegar ao fim do arranjo. Considere todas as permutações possíveis do arranjo de 
entrada igualmente prováveis. 


e. Suponha que exista exatamente um índice i tal que A[i] = x. Qual é o tempo de execução do caso médio 
de Dererministic-SearcH? Qual é o tempo de execução do pior caso de Dererminisric-SEarcH? 


fi Generalizando sua solução para parte (e), suponha que existam k > 1 índices i tais que A[i] = x. Qualé o 
tempo de execução do caso médio de Derermnisric-SearcH? Qual é o tempo de execução do pior caso de 
DererMInIsTIC-SEARCH? Sua resposta deve ser uma função de n e k. 


8. Suponha que não exista nenhum índice i tal que A[i] = x. Qual é o tempo de execução do caso médio de 
Derermisrtic-SEarcH? Qual é o tempo de execução do pior caso de Dererministic-SEArcH? 


Finalmente, considere um algoritmo aleatorizado Scramsre-Searcn que funciona primeiro permutando 
aleatoriamente o arranjo de entrada e depois executando a busca linear determinística dada anteriormente para 
o arranjo permutado resultante. 


h. Sendo k o número de índices i tais que A[i] = x, dê os tempos de execução esperado e do pior caso de 
SCRAMBLE-SEARCH para Os casos nos quais k = O e k = 1. Generalize sua solução para tratar o caso no qual 
k>1. 


j  Qualdos três algoritmos de busca você usaria? Explique sua resposta. 


NorTas DO CAPÍTULO 


Bollobás [54] Hofri [174] e Spencer [321] contêm grande número de técnicas probabilísticas avançadas. As 
vantagens dos algoritmos aleatorizados são discutidas e pesquisadas por Karp [200] e Rabin [288]. O livro didático de 
Motwani e Raghavan [262] apresenta um tratamento extensivo de algoritmos aleatorizados. 

Diversas variantes do problema da contratação têm sido amplamente estudadas. Esses problemas são mais 
comumente referidos como “problemas da secretária”. Um exemplo de trabalho nessa área é o artigo de Ajtai, Megeido 
e Waarts [11]. 


Parte 


II ORDENAÇÃO E ESTATÍSTICAS DE ORDEM 


InrroDUÇÃO 


Esta parte apresenta vários algoritmos que resolvem o problema de ordenação a segurr: 

Entrada: Uma sequência de n números (a,, a», ..., à). 

Saída: Uma permutação (reordenação) (a”1, a'2, ..., a'n) da sequência de entrada tal que al <q'2<...<a'n. 
A sequência de entrada normalmente é um arranjo de n elementos, embora possa ser repre- 

sentada de algum outro modo, como uma lista ligada. 


À ESTRUTURA DOS DADOS 


Na prática, os números que devem ser ordenados raramente são valores isolados. Em geral, cada um deles é parte 
de uma coleção de dados denominada registro. Cada registro contém uma chave, que é o valor a ser ordenado. O 
restante do registro consiste em dados satélites, que normalmente são transportados junto com a chave. Na prática, 
quando um algoritmo de ordenação permuta as chaves, também deve permutar os dados satélites. Se cada registro 
incluir grande quantidade de dados satélites, muitas vezes permutamos um arranjo de ponteiros para os registros em vez 
dos próprios registros, para minimizar a movimentação de dados. 

De certo modo, são esses detalhes de implementação que distinguem um algoritmo de um programa 
completamente desenvolvido. Um algoritmo de ordenação descreve o método pelo qual determinamos a sequência 
ordenada, independentemente de estarmos ordenando números individuais ou grandes registros contendo muitos bytes 
de dados satélites. Assim, quando focalizamos o problema de ordenação, em geral consideramos que a entrada consiste 
apenas em números. A tradução de um algoritmo para ordenação de números em um programa para ordenação de 
registros é conceitualmente direta, embora em uma situação específica de engenharia possam surgir outras sutilezas que 
fazem da tarefa real de programação um desafio. 


Por que ordenar? 


Muttos cientistas de computação consideram a ordenação o problema mais fundamental no estudo de algoritmos. 

Há várias razões: 

* Ás vezes, uma aplicação tem uma necessidade inerente de ordenar informações. Por exemplo, para preparar 
extratos de clientes, os bancos precisam ordenar os cheques pelo número do cheque. 

* Os algoritmos frequentemente usam a ordenação como uma subrotina chave. Por exemplo, um programa que 
apresenta objetos gráficos dispostos em camadas uns sobre os outros talvez tenha de ordenar os objetos de 


acordo com uma relação “acima” para poder desenhar esses objetos de baixo para cima. Neste texto veremos 
numerosos algoritmos que utilizam a ordenação como uma subrotina. 

* Podemos escolher entre uma ampla variedade de algoritmos de ordenação, e eles empregam um rico conjunto de 
técnicas. De fato, muitas técnicas importantes usadas em projeto de algoritmos aparecem no corpo de algoritmos 
de ordenação que foram desenvolvidos ao longo dos anos. Assim, a ordenação também é um problema de 
interesse histórico. 

* Podemos demonstrar um limite imferior não trivial para a ordenação (como faremos no Capítulo 8). Nossos 
melhores limites superiores correspondem ao limite inferior assintoticamente e, assim, sabemos que nossos 
algoritmos de ordenação são assintoticamente ótimos. Além disso, podemos usar o limite mferior de ordenação 
para demonstrar limites mferiores para alguns outros problemas. 

*  Muías questões de engenharia vêm à tona na implementação de algoritmos de ordenação. O programa de 
ordenação mais rápido para determinada situação pode depender de muitos fatores, como o conhecimento anterior 
das chaves e dos dados satélites, da hierarquia de memória (caches e memória virtual) do computador hospedeiro 
e do ambiente de software. Muitas dessas questões são mais bem tratadas no nível algorítmico, em vez de 
“retocar” o código. 


Algoritmos de ordenação 


Apresentamos dois algoritmos para ordenação de n números reais no Capítulo 2. A ordenação por inserção leva o 
tempo Q(n,) no pior caso. Porém, como seus laços internos são compactos, ela é um algoritmo rápido de ordenação 
no lugar para pequenos tamanhos de entrada. (Lembre-se de que um algoritmo de ordenação executa a ordenação no 
lugar se somente um número constante de elementos do arranjo de entrada estiver a cada vez armazenado fora do 
arranjo.) 

A ordenação por intercalação tem um tempo de execução assintótico melhor, Q(n lg n), mas o procedimento 
Mersg que ela utiliza não funciona no lugar. 

Nesta parte, apresentaremos mais dois algoritmos que ordenam números reais arbitrários. A ordenação por heap, 
apresentada no Capítulo 6, ordena n números no lugar, no tempo O(n lg n). Ela usa uma importante estrutura de dados, 
denominada heap, com a qual também podemos implementar uma fila de prioridades. 

O quicksort, no Capítulo 7, também ordena n números no lugar, mas seu tempo de execução do pior caso é Q(n,). 
Contudo, seu tempo de execução esperado é Q(n lg n), e em geral ele supera a ordenação por heap na prática. Como 
a ordenação por inserção, o quicksort tem um código compacto e, assim, o fator constante oculto em seu tempo de 
execução é pequeno. Ele é um algoritmo popular para ordenação de grandes arranjos de entrada. 

Ordenação por inserção, ordenação por intercalação, ordenação por heap e quicksort são ordenações por 
comparação: determinam a sequência ordenada de um arranjo de entrada por comparação de elementos. O Capítulo 8 
começa introduzindo o modelo de árvore de decisão para estudar as limitações de desempenho de ordenações por 
comparação. Usando esse modelo, provamos um limite inferior de W(n lg n) no tempo de execução do pior caso de 
qualquer ordenação por comparação para n entradas, mostrando assim que a ordenação por heap e a ordenação por 
intercalação são ordenações por comparação assintoticamente ótimas. 

Em seguida, o Capítulo 8 mostra que poderemos superar esse limite imferior de W(n lg n) se for possível reunir 
informações sobre a sequência ordenada da entrada por outros meios além da comparação de elementos. Por exemplo, 
o algoritmo de ordenação por contagem considera que os números da entrada estão no conjunto (0, 1,..., kt. Usando 
a indexação de arranjos como ferramenta para determinar a ordem relativa, a ordenação por contagem pode ordenar n 
números no tempo Q(k + n). Assim, quando k = O(n), a ordenação por contagem é executada em tempo linear no 
tamanho do arranjo de entrada. Um algoritmo relacionado, de ordenação digital (radix sort), pode ser usado para 
estender a faixa da ordenação por contagem. Se houver n inteiros para ordenar, cada inteiro tiver d dígitos e cada dígito 
puder adotar até k valores possíveis, a ordenação digital poderá ordenar os números no tempo Q(d(n + k)). Quando d 
é uma constante e k é O(n), a ordenação digital é executada em tempo linear. Um terceiro algoritmo, ordenação por 
balde (ordenação por balde) requer o conhecimento da distribuição probabilística dos números no arranjo de entrada. 


Ele pode ordenar n números reais distribuídos uniformemente no intervalo meio aberto [0, 1) no tempo do caso médio 
On). 


A tabela a seguir resume os tempos de execução dos algoritmos de ordenação dos Capítulos 2 e 6-8. Como 
sempre, n denota o número de itens a ordenar. Para a ordenação por contagem, os itens a ordenar são inteiros no 
conjunto (0, 1,..., k). Para ordenação digital, cada item é um número com d dígitos, onde cada dígito adota k valores 
possíveis. Para a ordenação por balde, consideramos que as chaves são números reais uniformemente distribuídos no 
intervalo meio aberto [0, 1). A coluna da extrema direita dá o tempo de execução do caso médio ou esperado e indica 
a qual ela se refere quando for diferente do tempo de execução do pior caso. Omitimos o tempo de execução do caso 
médio da ordenação por heap porque não o analisaremos neste livro. 


Algoritmo Tempo de execução do pior Tempo de execução do caso 
caso médio/esperado 
Ordenação por inserção Q(nº) Q(n:) 
Ordenação por Q(n log n) Q(n log n) 
intercalação 


Ordenação por heap O(n log n) — 

Quicksort Q(n2) Q(n log n) (esperado) 
Ordenação por contagem Q(k + n) Q(k + n) 

Ordenação digital Q(d(n + k)) Q(d(n + k)) 
Ordenação por balde Q(n2) Q(n) (caso médio) 


Estatísticas de ordem 


A i-ésima estatística de ordem de um conjunto de n números é o i-ésimo menor número no conjunto. É claro que 
podemos selecionar a i-ésima estatística de ordem ordenando a entrada e indexando o i-ésimo elemento da saída. Sem 
nada supor sobre a distribuição da entrada, esse método é executado no tempo W(n lg n), como mostra o limite inferior 
demonstrado no Capítulo 8. 

No Capítulo 9, mostramos que podemos determinar o i-ésimo menor elemento no tempo O(n), mesmo quando os 
elementos são números reais arbitrários. Apresentamos um algoritmo aleatorizado com pseudocódigo compacto que é 
executado no tempo Q(n,) no pior caso, mas cujo tempo de execução esperado é O(n). Também damos um algoritmo 
mais complicado que é executado no tempo O(n) no pior caso. 


Conhecimentos necessários 


Embora a maioria das seções desta parte não dependa de conceitos matemáticos difíceis, algumas seções exigem 
certa sofisticação matemática. Em particular, as análises do quicksort, ordenação por balde e algoritmo de estatística de 
ordem utilizam probabilidade, que revisamos no Apêndice C; o material sobre análise probabilística e algoritmos 
aleatórios é estudado no Capítulo 5. A análise do algoritmo de tempo linear do pior caso para estatísticas de ordem 
envolve matemática um pouco mais sofisticada que as outras análises do pior caso apresentadas nesta parte. 


(ORDENAÇÃO POR HEAP 


Neste capítulo, introduzimos outro algoritmo de ordenação: ordenação por heap. Como a ordenação por 
intercalação, mas diferente da ordenação por inserção, o tempo de execução da ordenação por heap é O(n lg n). 
Como a ordenação por inserção, mas diferentemente da ordenação por intercalação, a ordenação por heap ordena no 
lugar: apenas um número constante de elementos do arranjo é armazenado fora do arranjo de entrada em qualquer 
instante. Assim, a ordenação por heap combina os melhores atributos dos dois algoritmos de ordenação que já 
discutimos. 

A ordenação por heap também introduz outra técnica de projeto de algoritmos: a utilização de uma estrutura de 
dados, nesse caso uma estrutura que denominamos “heap” para gerenciar informações. A estrutura de dados heap não 
é útil apenas para a ordenação por heap, ela também cria uma eficiente fila de prioridades. A estrutura de dados heap 
reaparecerá em algoritmos em capítulos posteriores. 

O termo “heap” foi cunhado originalmente no contexto da ordenação por heap, mas desde então passou a se 
referir também a “armazenamento com coleta de lixo”, tal como dado pelas linguagens de programação Lisp e Java. 
Nossa estrutura de dados heap não é armazenamento com coleta de lixo e, sempre que mencionarmos heaps neste 
livro, o termo significa a estrutura de dados definida neste capítulo. 


6.1 Heaps 


A estrutura de dados heap (binário) é um objeto arranjo que pode ser visto como uma árvore binária quase 
completa (veja Seção B.5.3), como mostra a Figura 6.1. Cada nó da árvore corresponde a um elemento do arranjo. A 
árvore está completamente preenchida em todos os níveis, exceto possivelmente no nível mais baixo, que é preenchido 
a partir da esquerda até um ponto. Um arranjo 4 que representa um heap é um objeto com dois atributos: 
A: comprimento, que (como sempre) dá o número de elementos no arranjo, e 4: tamanho-do-heap, que representa 
quantos elementos no heap estão armazenados dentro do arranjo 4. Isto é, embora A[1 .. A-comprimento] possa 
conter números, só os elementos em A[4 - tamanho-do-heap], onde A-tamanho-do-heap < A-comprimento, são 
elementos válidos do heap. A raiz da árvore é 4[1] e, dado o índice i de um nó, podemos calcular facilmente os índices 
de seu pai, do filho à esquerda e do filho à direita: 
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Figura 6.1 Umheap de máximo visto como (a) uma árvore binária e (b) um arranjo. O número dentro do círculo em cada nó na árvore é o 
valor armazenado nesse nó. O número acima de umnó é o índice correspondente no arranjo. Acima e abaixo do arranjo há linhas que 
mostram relacionamentos pai-filho; os pais estão sempre à esquerda de seus filhos. A árvore temaltura três; o nó no índice 4 (com valor 
8) tem altura um. 


PARENT(i) 
1 return [i/2] 


Lerr(i) 
1 return 2i 


RicHr(i) 
1 return2i/+41 


Na maioria dos computadores, o procedimento Lerr pode calcular 2i em uma única instrução, simplesmente 
deslocando a representação binária de i uma posição de bit para a esquerda. De modo semelhante, o procedimento 
Ricnr pode calcular rapidamente 2i + 1 deslocando a representação binária de i uma posição de bit para a esquerda e 
depois inserindo 1 como o bit de ordem baixa. O procedimento Parent pode calcular :/2 deslocando i uma posição de 
bit para a direita. Uma boa implementação de ordenação por heap frequentemente implementa esses procedimentos 
como “macros” ou “em linha”. 

Existem dois tipos de heaps binários: heaps de máximo e heaps de mínimo. Em ambos os tipos, os valores nos nós 
satisfazem a uma propriedade de heap, cujos detalhes específicos dependem do tipo de heap. Em um heap de 
máximo, a propriedade de heap de máximo é que, para todo nó i exceto a raiz, 


A[PARENT(i)] > Ali], 


isto é, o valor de um nó é, no máximo, o valor de seu pai. Assim, o maior elemento em um heap de máximo é 
armazenado na raiz, e a subárvore que tem raiz em um nó contém valores menores que o próprio nó. Um heap de 
mínimo é organizado de modo oposto; a propriedade de heap de mínimo é que, para todo nó i exceto a raiz, 


A[ParenrT(i)] < Afi]. 


O menor elemento em um heap de mínimo está na raiz. 

Para o algoritmo de ordenação por heap, usamos heaps de máximo. Heaps de mínimo são comumente 
empregados em filas de prioridades, que discutiremos na Seção 6.5. Seremos precisos ao especificar se necessitamos 
de um heap de máximo ou de um heap de mínimo para qualquer aplicação particular e, quando as propriedades se 
aplicarem tanto a heaps de máximo quanto a heaps de mínimo, simplesmente usaremos o termo “heap”. 

Visualizando um heap como uma árvore, definimos a altura de um nó em um heap como o número de arestas no 
caminho descendente simples mais longo desde o nó até uma folha e definiremos a altura do heap como a altura de sua 


raiz. Visto que um heap de n elementos é baseado em uma árvore binária completa, sua altura é Q(lg n) (veja Exercício 

6.1-2). Veremos que as operações básicas em heaps são executadas em tempo que é, no máximo, proporcional à altura 

da árvore e, assim, demoram um tempo O(lg n). O restante deste capítulo apresenta alguns procedimentos básicos e 

mostra como eles são usados em um algoritmo de ordenação e uma estrutura de dados de fila de prioridades. 

* O procedimento Max-Heariry, que roda no tempo Ollg n), é a chave para manter a propriedade de heap de 
máximo (6.1). 

* O procedimento Burv-Max-Hear, executado em tempo linear, produz um heap de máximo a partir de um arranjo de 
entrada não ordenado. 

* O procedimento ordenação por heap, executado no tempo O(n lg nn), ordena um arranjo no lugar. 

* Os procedimentos Max-Hear-Inserr, Heap-Extracr-Max, HEAp-INCREASE-KEY € Hear--MaxiMum, que rodam em tempo 
O(lg n), permitem que a estrutura de dados heap implemente uma fila de prioridades. 


Exercícios 
6.1-1 Quais são os números mínimo e máximo de elementos em um heap de altura A? 


6.1-2 Mostre que um heap de n elementos tem altura lg n. 


6.1-3 Mostre que, em qualquer subárvore de um heap de máximo, a raiz da subárvore contém o maior valor que 
ocorre em qualquer lugar nessa subárvore. 


6.1-4 Em que lugar de heap de máximo o menor elemento poderia residir, considerando que todos os elementos 
sejam distintos? 


6.1-5 Umarranjo que está em sequência ordenada é um heap de mínimo? 
6.1-6  Asequência (23, 17, 14, 6, 13, 10, 1,5, 7, 12) é um heap de máximo? 


6.1-7 Mostre que, com a representação de arranjo para ordenar um heap de n elementos, as folhas são os nós 
indexados por n/2 + 1,n/2+2,...,n. 


6.2 MANUTENÇÃO DA PROPRIEDADE DE HEAP 


Para manter a propriedade de heap de máximo, chamamos o procedimento Max-Hrariry. Suas entradas são um 
arranjo 4 e um índice i para o arranjo. Quando chamado, Max-Hrariry considera que as árvores binárias com raízes em 
Lerr(i) € Ricur(i) são heaps de máximo, mas que A[i] pode ser menor que seus filhos, o que viola a propriedade de heap 
de máximo. Max-Hearrry permite que o valor em A[i] “flutue para baixo” no heap de máximo, de modo que a subárvore 
com raiz no índice i obedeça à propriedade do heap de máximo. 


Max-HEaPIFY(A, 1) 
| = Lerr(i) 
r = RrcHrT(i) 
if] < A-tamanho-do-heap e A[l] > Afil 


maior = 1 


1 

2 

3 

4 

5 elsemaior = i 
6 ifr < A-tamanho-do-heap e Alr] > Afmaior] 
7 maior=r 

8 if maior = i 

9 trocar Ali] com Almaior] 

10 Max-HEAPIEY(A, maior) 


(c) 


Figura 6.2 Ação de Max-Heariey(A, 2), onde 4: tamanho-do-heap [4] = 10. (a) Configuração inicial, com 4[2] no nó i =2, violando a 
propriedade de heap de máximo, já que ele não é maior que os filhos. A propriedade de heap de máximo é restabelecida para o nó 2 em (b) 
pela troca de A[2] por 4[4], o que destrói a propriedade de heap de máximo para o nó 4. A chamada recursiva Max-Hearirv(A, 4) agora 
temi =4. Após trocar 4[4] por 4[9], como mostramos em (c), o nó 4 é corrigido, e a chamada recursiva a Max-Hearrry(A, 9) não produz 
nenhuma mudança adicional na estrutura de dados. 


A Figura 6.2 ilustra a ação de Max-Heariry. Em cada etapa, o maior dos elementos A[il, A[Lerr(i)] e A[Ricur(i)] é 
determinado, e seu índice é armazenado em maior. Se A[i] é maior, a subárvore com raiz no nó i já é um heap de 
máximo, e o procedimento termina. Caso contrário, um dos dois filhos tem o maior elemento, e A[i] é trocado por 
Almaior], fazendo com que o nó i e seus filhos satisfaçam a propriedade de heap de máximo. Porém, agora o nó 


indexado por maior tem o valor original A[i] e, assim, a subárvore com raiz em maior poderia violar a propriedade de 
heap de máximo. Em consequência disso, chamamos Max-Hrariry recursivamente nessa subárvore. 

O tempo de execução de Max-Heariry em uma subárvore de tamanho n com raiz em um dado nó i é o tempo Q(1) 
para corrigir as relações entre os elementos A[i], A[Lerr(i)] e A[Ricur(7)], mais o tempo para executar Max-Heariry em 
uma subárvore com raiz em um dos filhos do nó i (considerando que a chamada recursiva ocorre). Cada uma das 
subárvores dos filhos tem, no máximo, tamanho igual a 2n/3 — o pior caso ocorre quando a última linha da árvore está 
exatamente metade cheia — e, portanto, podemos descrever o tempo de execução de Max-Hearrry pela recorrência 


T(n) < T(2n/3) + O(1). 


A solução para essa recorrência, de acordo com o caso 2 do teorema mestre (Teorema 4.1), é T(n) = O(lg n). 
Como alternativa, podemos caracterizar o tempo de execução de Max-Heariry em um nó de altura h como O(A). 


Exercícios 
6.2-1 Usando a Figura 6.2 como modelo, ilustre a operação de Max-Hearirv(A, 3) sobre o arranjo 4 = (27, 17,3, 
16, 13,10, 1,5, 7, 12,4,8,9,0). 


6.2-2 Começando como procedimento Max-Hrariry, escreva pseudocódigo para o procedimento Min-Heariry(A, i), 
que executa a manipulação correspondente sobre um heap de mínimo. Compare o tempo de execução de 
Min-Hrariry com o de Max-Heariry. 


6.2-3 Qualé o efeito de chamar Max-Hearirv(A4, 1) quando o elemento A[i] é maior que seus filhos? 
6.2-4  Qualé o efeito de chamar Max-Heariry(A, 1) para i > 4: tamanho-do-heap/29 


6.2-5 O código para Max-Hearrry é bastante eficiente em termos de fatores constantes, exceto possivelmente para a 
chamada recursiva na linha 10, que poderia fazer com que alguns compiladores produzissem código 
ineficiente. Escreva um Max-Hearrry eficiente que use um constructo de controle iterativo (um laço) em vez de 
recursão. 


6.2-6 Mostre que o tempo de execução do pior caso de Max-Heariry para um heap de tamanho n é Wílg n). 
(Sugestão: Para um heap com n nós, dê valores de nós que façam Max-Heariry ser chamado recursivamente 
em todo nó em um caminho desde a raiz até uma folha.) 


6.3 (CConNsTRUÇÃO DE UM HEAP 


Podemos usar o procedimento Max-Heariry de baixo para cima para converter um arranjo A4[1 .. n], onde n = 
A: comprimento, em um heap de máximo. Pelo Exercício 6.1-7, os elementos no subarranjo A[([n/2] + 1) .. n] são 
folhas da árvore e, portanto, já de início, cada um deles é um heap de 1 elemento. O procedimento Buro-Max-Hear 
percorre os nós restantes da árvore e executa Max-Heariry sobre cada um. 


BurLD-Max-HEAP(A) 

1 A-tamanho-do-heap = A-comprimento 
2 fori = [comprimento[A]/2] downto 1 
3  Max-HEaPIFY(A, 1) 


A Figura 6.3 mostra um exemplo da ação de Bumo-Max-Hear. 
Para mostrar por que Bur.D-Max-Har funciona corretamente, usamos o seguinte invariante de laço: 
No começo de cada iteração do laço for das linhas 2-3, cada nó i+ 1,i+2,...,n é a raiz de um heap de 
Precisamos mostrar que esse invariante é verdadeiro antes da primeira iteração do laço, que cada iteração do laço 
mantém o invariante e que o invariante dá uma propriedade útil para mostrar a correção quando o laço termina. 
Inicialização: Antes da primeira iteração do laço, i = n/2. Cada nó n/2 + 1,n/2 +2,...,n é uma folha, e é 
portanto a raiz de um heap de máximo trivial. 
Manutenção: Para ver que cada iteração mantém o invariante de laço, observe que os filhos do nó i são 
numerados com valores mais altos que i. Assim, pelo invariante de laço, ambos são raízes de heaps de máximo. 
Essa é precisamente a condição exigida para a chamada Max-Heariry(A, i) para fazer do nó i uma raiz de heap 
de máximo. Além disso, a chamada a Max-Hearrry preserva a propriedade de que os nós i+ 1,i+2,...,n são 
raízes de heaps de máximo. Decrementar i na atualização do laço for restabelece o invariante de laço para a 
próxima iteração. 
ED çteãgMMEMMEEMMEMSEMEMSEMEMMSEMSMM 


a [alfa f=nispofopape o] 


(e) (f) 


Figura 6.3 Operação de Buro-Max-Hear, mostrando a estrutura de dados antes da chamada a Max-Harrry na linha 3 de Buro-Max- 
Hear. (a) Um arranjo de entrada de 10 elementos 4 e a árvore binária que ele representa. A figura mostra que o índice de laço i se refere 
ao nó 5 antes da chamada Max-Heariev(A, i ). (b) A estrutura de dados resultante. O índice de laço i para a próxima iteração aponta para 
o nó 4. (c)-(e) Iterações subsequentes do laço for em Bur.n-Max-HEar. Observe que, sempre que Max-Hearrry é chamado emumnó, as 
duas subárvores desse nó são heaps de máximo. (f) O heap de máximo após o término de Bum n-Max-Hear. 


Término: No térmmno, i = 0. Pelo invariante de laço, cada nó 1, 2,...., n é a raiz de um heap de máximo. Em 
particular, o nó 1 é uma raiz. 


Podemos calcular um limite superior simples para o tempo de execução de BurcDp-Max-Hear da seguinte maneira: 
cada chamada a Max-Heariry custa o tempo O(lg nn), e Bumo-max-Hear faz O(n) dessas chamadas. Assim, o tempo de 
execução é O(n lg n). Esse limite superior, embora correto, não é assintoticamente restrito. 

Podemos derivar um limite mais restrito observando que o tempo de execução de Max-Heariry em um nó varia com 
a altura do nó na árvore, e as alturas na maioria dos nós são pequenas. Nossa análise mais restrita se baseia nas 


propriedades de que um heap de n elementos tem altura lg n (veja Exercício 6.1-2) e, no máximo n/2h + 1, nós de 


qualquer altura h (veja Exercício 6.3-3). 
O tempo exigido por Max-Heariry quando chamado em um nó de altura h é O(h); assim, podemos expressar o 


custo total de Bur.D-Max-Hear limitado por cima por 
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Avaliamos o último somatório substituindo x = 1/2 na fórmula (A.8), o que produz 


ah 1/2 


or (11/27 
=) 


Assim, podemos limitar o tempo de execução de Bum o-Max-Hear como 


[Ig n] 00 
Oln Ta = UI Lá 
h=0 2 | h=0 2 | 
= O(n). 


Consequentemente, podemos construir um heap de máximo a partir de um arranjo não ordenado em tempo linear. 

Podemos construir um heap de mínimo pelo procedimento Burp-Mrn-Hear, que é igual a BurD-Max-Hear, à não ser 
pela chamada a Max-Hearrry na linha 3, que é substituída por uma chamada a Min-Heariry (veja Exercício 6.2-2). Bum p- 
Min-Hear produz um heap de mínimo a partir de um arranjo linear não ordenado em tempo linear. 


Exercícios 


6.3-1. Usando a Figura 6.3 como modelo, ilustre a operação de Burp-Max-Hea» no arranjo 4 = (5, 3, 17, 10, 84, 
19,6, 22,9). 


6.3-2 Por que queremos que o índice de laço i na linha 2 de Burrp-Max-Hear diminua de 4:comprimento/2 até 1, 
em vez de aumentar de 1 até 4: comprimento/29 


6.3-3 Mostre que existem, no máximo, n/2h + 1 nós de altura A em qualquer heap de n elementos. 


6.4 (O ALGORITMO DE ORDENAÇÃO POR HEAP 


O algoritmo de ordenação por heap começa usando Bur.p-Max-Hear para construir um heap de máximo no arranjo 
de entrada A4[1..n], onde n = 4: comprimento. Visto que o elemento >máximo do arranjo está armazenado na raiz 
A[1], podemos colocá-lo em sua posição final correta trocando-o por 4[n]. Se agora descartarmos o nó n do heap — 


e para isso basta simplesmente decrementar 4- comprimento) —, observaremos que 4[1 .. (n — 1)] pode ser 
facilmente transformado em um heap de máximo. Os filhos da raiz continuam sendo heaps de máximo, mas o novo 
elemento raiz pode violar a propriedade de heap de máximo. Porém, para restabelecer a propriedade de heap de 
máximo, basta chamar Max-Heariry(4, 1), que deixa um heap de máximo em A[1 .. (n — 1)]. Então, o algoritmo de 
ordenação por heap repete esse processo para o heap de máximo de tamanho n — 1 até um heap de tamanho 2. (Veja 
no Exercício 6.4-2 um invariante de laço preciso.) 


HEaPsORT(A) 

1 Bumco-Max-HEarp(A) 

2 fori = comprimento[A] downto 2 

3 trocar A[1] com Afi] 

+ A-tamanho-do-heap = A-tamanho-do-heap — 1 
5 Max-HeapIrY(A, 1) 


A Figura 6.4 mostra um exemplo da operação de Hearsorr após a linha 1 ter construído o heap de máximo inicial. 
A figura mostra o heap de máximo antes da primeira iteração do laço for das linhas 2-5 e após cada iteração. 

O procedimento Hrarsorr demora o tempo O(n lg 1), já que a chamada a Bur.D-Max-Hear demora o tempo O(n), e 
cada uma das n — 1 chamadas a Max-Heariry demora o tempo O(lg nn). 


Exercícios 


6.4-1 | Usando a Figura 6.4 como modelo, ilustre a operação de Hearsorr sobre o arranjo 4 = (5, 13, 2,25, 7, 17, 
20, 8, 4). 


6.4-2 Discuta a correção de Hearsorr usando o seguinte invariante de laço: 


No início de cada iteração do laço for das linhas 2- 5, o subarranjo A[1 .. 7] é um heap de máximo que 
contém os i menores elementos de A[1 .. n], e o subarranjo Afi + 1... n] contém os n — i maiores elementos 
de A[1.. n], ordenados. 


6.4-3 Qual é o tempo de execução de Hearsorr para um arranjo 4 de comprimento n que já está ordenado em 
ordem crescente? E em ordem decrescente? 
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Figura 6.4 Operação de Hearsorr. (a) A estrutura de dados de heap de máximo logo após ter sido construída por Buro-Max-HEar na 


linha 1. (b)-(j) O heap de máximo logo após cada chamada de Max-Heariey na linha 5, mostrando o valor de i nesse instante. Apenas os 
nós sombreados em tom mais claro permanecemno heap. (k) Arranjo ordenado resultante 4. 


6.4-4 Mostre que o tempo de execução do pior caso de Hearsorré W(n lg n). 


6.4-5 * 


Mostre que, quando todos os elementos são distintos, o tempo de execução do melhor caso de Hearsorr é 
Wí(n lg n). 


6.5 FILAS DE PRIORIDADES 


A ordenação por heap é um algoritmo excelente, mas uma boa implementação de quicksort, apresentada no 
Capítulo 7, normalmente o supera na prática. Não obstante, a estrutura de dados de heap propriamente dita tem muitas 
utilidades. Nesta seção, apresentaremos uma das aplicações mais populares de um heap: uma fila de prioridades 
eficiente. Como ocorre com os heaps, existem dois tipos de filas de prioridades: filas de prioridade máxima e filas de 
prioridade mínima. Focalizaremos aqui a implementação de filas de prioridade máxima, que por sua vez se baseiam em 
heaps de máximo; o Exercício 6.5-3 pede que você escreva os procedimentos correspondentes para filas de prioridade 
mínima. 


Uma fila de prioridade é uma estrutura de dados para manter um conjunto S de elementos, cada qual com um 
valor associado denominado chave. Uma fila de prioridade máxima suporta as seguintes operações: 


Inserr(S, x) insere o elemento x no conjunto S. Essa operação é equivalente à operação S=S U (x. 
Maximu(S) devolve o elemento de S que tenha a maior chave. 
Exrracr-Max(S) remove e devolve o elemento de S que tenha a maior chave. 


Increase-Kev(S, x, k) aumenta o valor da chave do elemento x até o novo valor k, que admite-se ser, pelo menos, 
tão grande quanto o valor da chave atual de x. 


Entre outras aplicações, podemos usar filas de prioridade máxima para programar trabalhos em um computador 
compartilhado. A fila de prioridade máxima mantém o controle dos trabalhos a executar e suas prioridades relativas. 
Quando um trabalho termina ou é interrompido, o escalonador seleciona o trabalho de prioridade mais alta entre os 
trabalhos pendentes chamando Exrracr-Max. O escalonador pode acrescentar um novo trabalho à fila em qualquer 
instante chamando Inserr. 

Alternativamente, uma fila de prioridade mínima suporta as operações Insert, Minimum, ExrracT-MIN € DECREASE- 
Key. Uma fila de prioridade mínima pode ser usada em um simulador orientado a eventos. Os itens na fila são eventos a 
simular, cada qual com um instante de ocorrência associado que serve como sua chave. Os eventos devem ser 
simulados na ordem de seu instante de ocorrência porque a simulação de um evento pode provocar outros eventos a 
simular no futuro. O programa de simulação chama Exrracr-Mrn em cada etapa para escolher o próximo evento a 
simular À medida que novos eventos são produzidos, o simulador os insere na fila de prioridade mínima chamando 
Insert. Veremos outros usos de filas de prioridade mínima destacando a operação Decrease-Key, nos Capítulos 23 e 24. 

Não é nenhuma surpresa que possamos usar um heap para implementar uma fila de prioridade. Em determinada 
aplicação, como programação de trabalhos ou simulação orientada a eventos, os elementos de uma fila de prioridade 
correspondem a objetos na aplicação. Muitas vezes, é necessário determinar qual objeto de aplicação corresponde a 
um dado elemento de fila de prioridade e vice-versa. Portanto, quando usamos um heap para implementar uma fila de 
prioridade, frequentemente precisamos armazenar um descritor para o objeto de aplicação correspondente em cada 
elemento do heap. A constituição exata do descritor (isto é, um ponteiro ou um inteiro) depende da aplicação. De modo 
semelhante, precisamos armazenar um descritor para o elemento do heap correspondente em cada objeto de aplicação. 
Nesse caso, normalmente o descritor é um índice de arranjo. Como os elementos do heap mudam de posição dentro 
do arranjo durante operações de heap, uma implementação real, ao reposicionar um elemento do heap, também teria de 
atualizar o índice do arranjo no objeto de aplicação correspondente. Visto que os detalhes de acesso a objetos de 
aplicação dependem nuito da aplicação e de sua implementação, não os examinaremos aqui; observaremos apenas 
que, na prática, esses descritores precisam ser mantidos corretamente. 

Agora discutiremos como implementar as operações de uma fila de prioridade máxima. O procedimento Hear- 
Maximum implementa a operação Maximum no tempo Q(1). 


HEeap-MAxIMUM(A) 
1 return 4[1] 


O procedimento Hrar-Exrracr-Max implementa a operação Exrracr-Max. Ele é semelhante ao corpo do laço for 
(linhas 3-5) do procedimento Hearsorr. 


HEAPp-ExTRACT-MAx(A) 

1 if A-tamanho-do-heap < 1 

2 error “heap underflow” 

3 max = A[1] 

4 A[1] = A[A-tamanho-do-heap] 

5 A-tamanho-do-heap = A-tamanho-do-heap — 1 
6 Max-HEAPIFY(A, 1) 

7 return max 


O tempo de execução de Hear-Exrracr-Max é Ollg n), já que ele executa apenas uma quantidade constante de 
trabalho além do tempo O(lg n) para Max-Hearrey. 

O procedimento Hrar-Increase-Key implementa a operação Increase-Key. Um índice i para o arranjo identifica o 
elemento da fila de prioridade cuja chave queremos aumentar. Primeiro, o procedimento atualiza a chave do elemento 
Ali] para seu novo valor. Visto que aumentar a chave de Af[i] pode violar a propriedade de heap de máximo, o 
procedimento, de um modo que lembra o laço de inserção (linhas 5-7) de Inserrion-Sorr da Seção 2.1, percorre um 
caminho simples desde esse nó até a raiz para encontrar um lugar adequado para a chave recém-aumentada. Enquanto 
Heap-IncREAsE-KEY percorre esse caminho, compara repetidamente um elemento a seu pai, permutando suas chaves, 
prossegue se a chave do elemento for maior e termina se a chave do elemento for menor, visto que a propriedade de 
heap de máximo agora é válida. (Veja no Exercício 6.5-5 um invariante de laço preciso.) 


HEarp-INCREASE-KEY(A, 1, chave) 

1 if chave < Afi] 

2 error “nova chave é menor que chave atual” 
3 Ali] = chave 

4 while i > 1 e A[PARrENT(i)] < Afi] 

a troca Ali] com A[PARENT(i)] 

6 i= PARENT(i) 


A Figura 6.5 mostra um exemplo de operação Hear-Increase-Key. O tempo de execução de Hrar-Increase-Key para 
um heap de n elementos é O(lg n), visto que o caminho traçado desde o nó atualizado na linha 3 até a raiz tem 
comprimento O(lg nn). 

O procedimento Max-Hear-Inserr implementa a operação Inserr. Toma como entrada a chave do novo elemento a 
ser inserido no heap de máximo 4. Primeiro, o procedimento expande o heap de máximo, acrescentando à árvore uma 
nova folha cuja chave é — co. Em seguida, chama Hear-Increase-Key para ajustar a chave desse novo nó em seu valor 
correto e manter a propriedade de heap de máximo. 


Max-HEAP-INSERT(A, chave) 

1 A-tamanho-do-heap = A-tamanho-do-heap + 1 

2 A[A-tamanho-do-heap] = — oo 

3 Heap-IncREASE-KEY(A, A-tamanho-do-heap, chave) 


O tempo de execução de Max-Hear-Inserr para um heap de n elementos é O(lg n). 
Resumindo, um heap pode suportar qualquer operação de fila de prioridade em um conjunto de tamanho n no 


tempo Olg n). 


Exercícios 


6.5-1 


6.5-2 


6.5-3 


6.5-4 


6.5-5 


Iustre a operação de Hrar-Exrracr-Max sobre o heap 4 = (15, 13,9,5, 12,8, 7,4,0,6,2, 1). 
Ilustre a operação de Max-Hear-Inserr(A, 10) sobre o heap 4 = (15, 13,9,5, 12,8, 7,4,0,6,2, 1). 


Escreva pseudocódigos para os procedimentos Hear-Minimum, Hear-Exrract-MIN, HEAP-DECREASE-KEY E MIN- 
Hear-Inserr que implementem uma fila de prioridade mínima com um heap de mínimo. 


Por que nos preocupamos em definir a chave do nó inserido como —co na linha 2 de Max-Hrar-Inserr quando a 
nossa próxima ação é aumentar sua chave para o valor desejado? 


Demonstre a correção de Hear-Increase-Key usando o seguinte invariante de laço: 


No início de cada iteração do laço while das linhas 4-6, o subarranjo A[1 .. 4: tamanho-do-heap| satisfaz a 
propriedade de heap de máximo, exceto que pode haver uma violação: A[i] pode ser maior que A[Parenr(i)]. 


(2) (8) (1) 


(d) 


Figura 6.5 Operação de Hear-increase-Key. (a) O heap de máximo da Figura 6.4(a) com um nó cujo índice é i em sombreado de tom mais 
escuro. (b) A chave desse nó é aumentada para 15. (c) Depois de uma iteração do laço while das linhas 4-6, o nó e seu pai trocaram 
chaves, e o índice i sobe para o pai. (d) Heap de máximo após mais uma iteração do laço while. Nesse ponto, A[parenr(i )] > Afi]. Agora, 
a propriedade de heap de máximo é válida e o procedimento termina. 


6.5-6 


6.5-7 


Você pode supor que o subarranjo A[1 .. 4: tamanho-do-heap] satisfaz a propriedade de heap de máximo 
no instante em que Hrar-Increase-Key é chamado. 


Cada operação de troca na linha 5 de Hear-Increase-Key normalmente, requer três atribuições. Mostre como 
usar a ideia do laço interno de Inserrion-Sorr para reduzir as três atribuições a apenas uma atribuição. 


Mostre como implementar uma fila primeiro a entrar, primeiro a sair com uma fila de prioridade. Mostre como 
implementar uma pilha com uma fila de prioridade. (Filas e pilhas são definidas na Seção 10.1.) 


6.5-8 


A operação Hear-DeLere(A, 7) elimina o item no nó i do heap 4. Dê uma implementação de Hear-DeLere que 
seja executada no tempo O(lg n) para um heap de máximo de n elementos. 


6.5-9 Dê um algoritmo de tempo O(n lg k) para intercalar k listas ordenadas em uma única lista ordenada, onde n é 
o número total de elementos em todas as listas de entrada. (Sugestão: Use um heap de mínimo para fazer a 
intercalação de k entradas.) 

Problemas 
6-1 Construir um heap com a utilização de inserção 


Podemos construir um heap chamando repetidamente Max-Hear-Inserr para inserir os elementos no heap. 
Considere a seguinte variação do procedimento Bum. o-Max-Hear: 


BurLD-Max-HEAP'(A) 
1 A-tamanho-do-heap = 1 
2 fori=2 to A-comprimento 


3 


6-2 


6-3 


Max-HEar-InsERT(A, Alil) 


a. Os procedimentos BurD-Max-Hear e BurD-Max-Hear” sempre criam o mesmo heap quando são 
executados sobre o mesmo arranjo de entrada? Prove que isso ocorre ou, então, dê um contraexemplo. 


b. Mostre que, no pior caso, Bup-Max-Hear' requer o tempo Q(n lg n) para construr um heap de n 
elementos. 


Análise de heaps d-ários 


Um heap d-ário é semelhante a um heap binário, mas (com uma única exceção possível) nós que não são 
folhas têm d filhos em vez de dois filhos. 


a. Como você representaria um heap d-ário em um arranjo? 
b. Qualé a altura de um heap d-ário de n elementos em termos de n e d? 


c. Dê uma implementação eficiente de Exrracr-Max em um heap de máximo d-ário. Analise seu tempo de 
execução em termos de d e n. 


d. Dê uma implementação eficiente de Inserr em um heap de máximo d-ário. Analise seu tempo de execução 
em termos de d e n. 


e. Dê uma implementação eficiente de Increase-Kev(A4, i, k), que sinaliza um erro se k < Af[i] mas, caso 
contrário, ajusta A[i] = k e então atualiza adequadamente a estrutura do heap de máximo d-ário. Analise 
seu tempo de execução em termos de d e n. 


Quadros de Young 


Um quadro de Young m x n é uma matriz m x n, tal que as entradas de cada linha estão em sequência 
ordenada da esquerda para a direita, e as entradas de cada coluna estão em sequência ordenada de cima para 
baixo. Algumas das entradas de um quadro de Young podem ser co, que tratamos como elementos 
inexistentes. Assim, um quadro de Young pode ser usado para conter 7 < mn números finitos. 


a. Trace um quadro de Young 4 x 4 contendo os elementos (9, 16, 3, 2,4,8,5, 14, 123. 


b. Demonstre que um quadro de Young m x n Y é vazio se Y1, 1] = oo. Demonstre que Y é cheio (contém 
mn elementos) se Ym, n] < 00. 


c. Dê umalgoritmo para implementar Exrracr-Min em um quadro de Young m x n não vazio que é executado 
no tempo O(m + n). Seu algoritmo deve usar uma subrotina recursiva que resolve um problema m x n 
resolvendo recursivamente um subproblema (m — 1) x n ou um subproblema m x (n — 1). (Sugestão: 
Pense em Max-Hearrry.) Defina T(p), onde p = m + n, como o tempo de execução máximo de Exrracr- 
Min em qualquer quadro de Young m x n. Dê e resolva uma recorrência para 7(p) que produza o limite 
de tempo O(m + n). 


d. Mostre como inserir um novo elemento em um quadro de Young m x n não cheio no tempo O(m + n). 


e. Sem usar nenhum outro método de ordenação como subrotina, mostre como utilizar um quadro de Young 
n xn para ordenar n> números no tempo O(ns). 


f Dê um algoritmo de tempo O(m + n) para determmnar se um dado número está armazenado em 
determinado quadro de Young m x n. 


NorTas DO CAPÍTULO 


O algoritmo de ordenação por heap foi criado por Williams [357], que também descreveu como implementar uma 
fila de prioridades com um heap. O procedimento Buro-Max-Hear foi sugerido por Floyd [106]. 

Usamos heaps de mínimo para implementar filas de prioridade mínima nos Capítulos 16, 23 e 24. Também damos 
uma implementação com limites de tempo melhorados para certas operações no Capítulo 19 e, considerando que as 
chaves são escolhidas de um conjunto limitado de inteiros não negativos, no Capítulo 20. 

Quando os dados são inteiros de b bits e a memória do computador consiste em palavras endereçáveis de b bits, 
Fredman e Willard [115] mostraram como implementar Minimum no tempo O(1) e Inserr e Exrracr-Min no tempo O (lg 
n). Thorup [337] melhorou o limite O (Nlg n) para o tempo O(NIg n). Esse limite usa quantidade de espaço ilimitada em 
n, mas pode ser implementado em espaço linear com a utilização de hashing aleatorizado. 

Um caso especial importante de filas de prioridades ocorre quando a sequência de operações de Exrracr-Min é 
monotônica, isto é, os valores retornados por operações sucessivas de Exrracr-Min são monotonicamente crescentes 
com o tempo. Esse caso surge em várias aplicações importantes, como o algoritmo de caminhos mais curtos de fonte 
única de Dijkstra, que discutiremos no Capítulo 24, e na simulação de eventos discretos. Para o algoritmo de Dijkstra, é 
particularmente importante que a operação Decrease-Key seja implementada eficientemente. 

No caso monotônico, se os dados são inteiros na faixa 1, 2, ..., C, Ahuja, Melhor, Orlmn e Tarjan [8] descrevem 
como implementar Exrracr-Min E Inserr no tempo amortizado O(lg €) (consulte o Capítulo 17 para obter mais 
informações sobre análise amortizada) e Decrease-Key no tempo O(1), usando uma estrutura de dados denominada heap 
digital O limite O(lg C) pode ser melhorado para O (Nlg C) com a utilização de heaps de Fibonacci (consulte o 
Capítulo 19) em conjunto com heaps digitais. Cherkassky, Goldberg e Silverstem [65] melhoraram ainda mais o limite 
até o tempo esperado O (lg!/3 + €) combinando a estrutura de baldes em vários níveis de Denardo e Fox [85] com o 
heap de Thorup já mencionado. Raman [291] aprimorou mais ainda esses resultados para obter um limite de O(min 
(Igl/4+ Cgl/3 + n)), para qualquer > O fixo. 


7 (QuicksORT 


O algoritmo quicksort (ordenação rápida) tem tempo de execução do pior caso de Q(n,) para um arranjo de 
entrada de n números. Apesar desse tempo de execução lento para o pior caso, muitas vezes, o quicksort é a melhor 
opção prática para ordenação, devido à sua notável eficiência na média: seu tempo de execução esperado é Q(n lg n), 
e os fatores constantes ocultos na notação Q(n lg n) são bastante pequenos. Ele também apresenta a vantagem de 
ordenar no lugar (veja página 17) e funciona bem até mesmo em ambientes de memória virtual. 

A Seção 7.1 descreve o algoritmo e uma subrotina importante usada pelo quicksort para particionamento. Como o 
comportamento do quicksort é complexo, começaremos com uma discussão intuitiva de seu desempenho na Seção 7.2 
e adiaremos sua análise precisa até o final do capítulo. A Seção 7.3 apresenta uma versão de quicksort que utiliza 
amostragem aleatória. Esse algoritmo tem um bom tempo de execução esperado, e nenhuma entrada específica induz 
seu comportamento do pior caso. A Seção 7.4 analisa o algoritmo aleatorizado, mostrando que ele é executado no 
tempo Q (n,) no pior caso e, considerando elementos distintos, no tempo esperado O(n lg n). 


7.1 DeEscriçÃO DO QUICKSORT 


O quicksort, como a ordenação por intercalação, aplica o paradigma de divisão e conquista introduzido na Seção 
2.3.1. Descrevemos a seguir, o processo de três etapas do método de divisão e conquista para ordenar um subarranjo 
típico Afp .. 7]. 

Divisão: Particionar (reorganizar) o arranjo A[p .. 17] em dois subarranjos (possivelmente vazios) 4[p .. g — 1] e 

Alg + 1... r] tais que, cada elemento de A[p .. q — 1] é menor ou iguala 4[q] que, por sua vez, é menor ou igual 
a cada elemento de A[g + 1... 7]. Calcular o índice q como parte desse procedimento de particionamento. 
Conquista: Ordenar os dois subarranjos 4[p .. g—1] e 4[g + 1... 7] por chamadas recursivas a quicksort. 


Combinação: Como os subarranjos já estão ordenados, não é necessário nenhum trabalho para combiná-los: o 
arranjo A[p .. r] inteiro agora está ordenado. 


O seguinte procedimento implementa o quicksort: 
QUICKSORT(A, p, 1) 

lifp<r 

2 q = PARTITION(A, p, 1) 

3 QUICKSORT(A, p,q — 1) 

4 QUuICKSORT(A, q + 1,1) 


Para ordenar um arranjo 4 inteiro, a chamada imicial é Quicksorr(4, 1, A: comprimento). 


Particionamento do arranjo 


A chave para o algoritmo é o procedimento Parrrmon, que reorganiza o subarranjo Alp .. 7] no lugar. 


PARTITION(A, p, 1) 
1 x= Afr] 
2ail=p=-1 

3 forj=ptor-—l 
4º ifAl]<x 

5 i=i+1 

6 trocar A[i] por A[] 
trocar A[i + 1] por A[r] 

8 returni+ 1 


N 


A Figura 7.1] mostra como Parrmon funciona para um arranjo de oito elementos. Parri- Ton sempre seleciona um 
elemento x = A[r] como um elemento pivô ao redor do qual particionar o subarranjo A[p .. 7]. À medida que é 
executado, o procedimento reparte o arranjo em quatro regiões (possivelmente vazias). No início de cada iteração do 
laço for nas linhas 3-6, as regiões satisfizem certas propriedades, mostradas na Figura 7.2. Enunciamos essas 
propriedades como um invariante de laço: 


ECC zSZMNNXEFEXTEEMMMENMMSMXMXSKA 


(b) 


(1) 


| PJ r 
HE MBEEE 


Pl J 


” ERSRESEAEA É 
DOE DOE E 
Pol J r 
HE HEHE 
p 1 J r 
[ES HERE 
p l p, r 
sjrpsle 
4 ! ; r 
sjrishe 
p l r 
CEE 
p l r 
HERE 


Figura 7.1 A operação Parrrrion para uma amostra de arranjo. A entrada A[r] do arranjo toma-se o elemento pivô x. Os elementos do 
arranjo sombreados em tom mais claro estão na primeira partição com valores não maiores que x. Elementos sombreados em tom mais 
escuro estão na segunda partição com valores maiores que x. Os elementos não sombreados ainda não foram inseridos em uma das 
duas primeiras partições, e o elemento final em fundo branco é o pivô x. (a) Configuração inicial do arranjo e das variáveis. Nenhum dos 
elementos foi inserido emnenhuma das duas primeiras partições. (b) O valor 2 é “permutado por ele mesmo” e inserido na partição de 
valores menores. (c)-(d) Os valores 8e 7 são acrescentados à partição de valores maiores. (e) Os valores 1 e 8são permutados, e a 
partição menor cresce. (f) Os valores 3e 7 são permutados, e a partição menor cresce. (g)—(h) A partição maior cresce para incluir 5 e 6, e 
o laço termina. (i) Nas linhas 7-8, o elemento pivô é permutado de modo que se encontra entre as duas partições. 


SE a e X irrestrito 


Figura 7.2 As quatro regiões mantidas pelo procedimento Parrrmon em um subarranjo Alp ..r ]. Os valores em 4[p .. i ] são menores ou 
iguais a x, os valores em A[i+ 1..7-1] são maiores que x e A[r |=x. O subarranjo Al; .. 7 — 1] pode aceitar quaisquer valores. 


No início de cada iteração do laço das linhas 3-6, para qualquer índice k do arranjo, 
Il. Sep<k<i, então A[k] <x. 
2. Seitl<k<j-—1, então A[k|> x. 
3. Sek=r, então A[k] =x. 

Os índices entre j e r — 1 não são abrangidos por nenhum dos três casos, e os valores nessas entradas não têm 
nenhuma relação particular com o pivô x. 

Precisamos mostrar que esse invariante de laço é verdadeiro antes da primeira iteração, que cada iteração do laço 
mantém o invariante e que o invariante fornece uma propriedade útil para mostrar correção quando o laço termina. 


Inicialização: Antes da primeira iteração do laço, i =p — 1 e j = p. Como não há nenhum valor entre p ci e 
nenhum valor entre i + 1 ej — 1, as duas primeiras condições do invariante de laço são satisfeitas trivialmente. A 
atribuição na linha 1 satisfaz a terceira condição. 


Manutenção: Como mostra a Figura 7.3, consideraremos dois casos, dependendo do resultado do teste na linha 
4. A Figura 7.3(a) mostra o que acontece quando A[;] > x; a única ação no laço é incrementar j. Depois que j é 
incrementado, a condição 2 é válida para 4[; — 1] e todas as outras entradas permanecem inalteradas. 


A Figura 7.3(b) mostra o que acontece quando A[;] < x; o laço incrementa i , permuta A[i] e Al;], e então 
incrementa j. Por causa da troca, agora temos que A[i] < x, e a condição 1 é satisfeita. De modo semelhante, 
também temos que 4[; — 1] > x, visto que o item que foi permutado para dentro de A4[; — 1] é, pelo invariante de 
laço, maior que x. 


Término: No término, ; = 7. Portanto, toda entrada no arranjo está em um dos três conjuntos descritos pelo 
invariante, e particionamos os valores no arranjo em três conjuntos: os menores ou iguais a x, os maiores que x e 
um conjunto unitário contendo x. 


As duas linhas finais de Parrrron terminam permutando o elemento pivô pelo elemento maior que x na extrema 
esquerda e, com isso, deslocam o pivô até seu lugar correto no arranjo particionado; em seguida, retornam o novo 
índice do pivô. Agora, a saída de Parrrmon satisfaz as especificações dadas para a etapa dividir. Na verdade, ela satisfaz 
uma condição ligeiramente mais forte: após a linha 2 de Quicksorr, A[g] é estritamente menor do que todo elemento de 
Alg+1..7]. 


O tempo de execução de Parrrrion para o subarranjo 4[p .. 7] é Q(n), onde n = r — p+ 1 (veja Exercício 7.1-3). 


Exercícios 


71-1 Usando a Figura 7. 1 como modelo, ilustre a operação de Parrmon sobre o arranjo 4 = (13, 19,9,5, 12,8, 
T4,21,2,6, 11). 


71-2 Qual valor de q Parrmon retorna quando todos os elementos no arranjo A[p .. r] têm o mesmo valor? 
Modifique Parrmon de modo que q = (p + 7)/2 quando todos os elementos no arranjo 4[p .. 1] têm o mesmo 
valor. 


(b) 


Figura 7.3 Os dois casos para uma iteração do procedimento Parrrrion. (a) Se A[;] > x, a única ação é incrementar j, que mantém o 
invariante de laço. (b) Se 4[;] < x, o índice i é incrementado, A[i] e A[j] são permutados e, então, j é incrementado. Novamente, o 
invariante de laço é mantido. 


71-3 Apresente um breve argumento mostrando que o tempo de execução de Parrmon para um subarranjo de 
tamanho n é Q(n). 


7.1-4 Como você modificaria Quicksorr para ordenar em ordem não crescente? 


7.2, O DESEMPENHO DO QUICKSORT 


O tempo de execução do quicksort depende de o particionamento ser balanceado ou não balanceado, o que por 
sua vez depende de quais elementos são usados para particionar. Se o particionamento é balanceado, o algoritmo é 
executado assintoticamente tão rápido quanto a ordenação por intercalação. Contudo, se o particionamento é não 
balanceado, ele pode ser executado assintoticamente tão lento quanto a ordenação por inserção. Nesta seção, 
investigaremos informalmente como o quicksort se comporta sob as premissas do particionamento balanceado e do 
particionamento não balanceado. 


Particionamento no pior caso 


O comportamento do pior caso para o quicksort ocorre quando a rotina de particionamento produz um 
subproblema com n — 1 elementos e um com O elementos. (Provamos essa afirmativa na Seção 7.4.1.) Vamos 
considerar que esse particionamento não balanceado surja em cada chamada recursiva. O particionamento custa o 
tempo Q(n). Visto que a chamada recursiva para um arranjo de tamanho O apenas retorna, T(0) = Q(1) e a recorrência 
para o tempo de execução é 


T(n) 


T(n — 1) + T(0) + O(n) 
= T(n— D+ O(n). 


Intuitivamente, se somarmos os custos incorridos em cada nível da recursão, obteremos uma série aritmética (equação 
(A.2)), cujo valor chega a Q(n,). Na realidade, é simples usar o método de substituição para provar que a recorrência 
T(n) = T(n — 1) + Q(n) tema solução T(n) = Q(n,). (Veja o Exercício 7.2-1.) 

Assim, se o particionamento é maximamente não balanceado em todo nível recursivo do algoritmo, o tempo de 
execução é Q(n,). Portanto, o tempo de execução do pior caso do quicksort não é melhor que o da ordenação por 
inserção. Além disso, o tempo de execução Q(n,) ocorre quando o arranjo de entrada já está completamente ordenado 
— uma situação comum na qual a ordenação por inserção é executada no tempo O(n). 


Particionamento do melhor caso 


Na divisão mais equitativa possível, Partmon produz dois subproblemas, cada um de tamanho não maior que n1/2, 
já que um é de tamanho n1/2 e o outro é de tamanho n1/2 — 1. Nesse caso, a execução do quicksort é muito mais rápida. 
Então, a recorrência para o tempo de execução é 


T(n) = 2T(n/2) + O(n), 


onde toleramos o desleixo de ignorar o piso e o teto e de subtrair 1. Pelo caso 2 do teorema mestre (Teorema 4.1), a 
solução dessa recorrência é T(n) = Q(n lg n). Balanceando igualmente os dois lados da partição em todo nível da 
recursão, obtemos um algoritmo assintoticamente mais rápido. 


Particionamento balanceado 


O tempo de execução do caso médio do quicksort é muito mais próximo do melhor caso que do pior caso, como 
mostrarão as análises da Seção 7.4. A chave para entender por que é entender como o equilíbrio do particionamento é 
refletido na recorrência que descreve o tempo de execução. 

Por exemplo, suponha que o algoritmo de particionamento sempre produza uma divisão proporcional de 9 para 1, 
que à primeira vista parece bastante desequilibrada. Então, obtemos a recorrência no tempo de execução do quicksort, 


e incluímos explicitamente a constante c oculta no termo Q(n). A Figura 7.4 mostra a árvore de recursão para essa 
recorrência. Note que todo nível da árvore tem custo cn até a recursão alcançar uma condição de contorno à 
profundidade log!o n = Q(lg n); daí em diante, os níveis têm no máximo o custo cn. A recursão termma na profundidade 
logt9/9 n = Q(lg n). Portanto, o custo total do quicksort é O(n lg n). Assim, com uma divisão na proporção de 9 para 1 
em todo nível de recursão, o que intuitivamente parece bastante desequilibrado, o quicksort é executado no tempo O(n 
lg n) — assintoticamente, o mesmo tempo que teríamos se a divisão fosse exatamente ao meio. De fato, até mesmo uma 
divisão de 99 para 1 produz um tempo de execução O(n lg n). Na verdade, qualquer divisão de proporcionalidade 
constante produz uma árvore de recursão de profundidade Q(lg n), em que o custo em cada nível é O(n). Portanto, o 
tempo de execução é Q(n lg n) sempre que a divisão tiver proporcionalidade constante. 


T(n) = T(9n/10) + T(n/10) + cn, 


Fed e cn 
l 9 
1097 107! EEE EEE EEE SEEC EE EEEEEEEEEE! [ER cn 
log,on dá o Ed N 
aba ei a go emmanmamama mio CÊ 
100 100 100 100 É cn 
aa NO NO EN 
S10/9 / 81 129 ” 
ias 22 m usem DRNENENNENAR p- » 
1 1000 10007! p cn 


Deneeenaas o <cn 


1 ememijh- <CN 


O(n lgn) 


Figura 7.4 Uma árvore de recursão para Quicxsorr, na qual Parrrrion sempre produz uma divisão de 9 para 1, resultando no tempo de 
execução O(n lg n). Os nós mostram tamanhos de subproblemas, com custos por nível à direita. Os custos por nível incluem a constante 
c implícita no termo Q(n). 


Intuição para o caso médio 


Para desenvolver uma noção clara do comportamento aleatorizado do quicksort, temos de adotar uma premissa 
em relação à frequência com que esperamos encontrar as várias entradas. O comportamento do quicksort depende da 
ordenação relativa dos valores nos elementos do arranjo dados como entrada, e não dos valores particulares no 
arranjo. Como em nossa análise probabilística do problema da contratação na Seção 5.2, suporemos por enquanto que 
todas as permutações dos números de entrada são igualmente prováveis. 

Quando executamos o quicksort sobre um arranjo de entrada aleatório, é muito improvável que o particionamento 
ocorra do mesmo modo em todo nível, como nossa análise informal pressupôs. Esperamos que algumas divisões serão 
razoavelmente bem equilibradas e outras serão razoavelmente desequilibradas. Por exemplo, o Exercício 7.2-6 pede 
para você mostrar que, em aproximadamente 80% do tempo, Parrrrion produz uma divisão mais equilibrada que 9 para 
1, e em aproximadamente 20% do tempo ele produz uma divisão menos equilibrada que 9 para 1. 


No caso médio, Parrrron produz um misto de divisões “boas” e “runs”. Em uma árvore de recursão para uma 
execução de Parrrmon para o caso médio, as divisões boas e ruins estão distribuídas aleatoriamente por toda a árvore. 
Suponha, por intuição, que as divisões boas e ruins se alternem nos níveis da árvore, que as divisões boas sejam 
divisões do melhor caso e as divisões ruins sejam divisões do pior caso. A Figura 7.5(a) mostra as divisões em dois 
níveis consecutivos na árvore de recursão. Na raiz da árvore, o custo é n para particionamento e os subarranjos 
produzidos têm tamanhos n — 1 e 0: o pior caso. No nível seguinte, o subarranjo de tamanho n — 1 sofre 
particionamento do melhor caso e subdivide-se em dois subarranjos de tamanhos (n — 1)2 — 1 e (n — 1)/2. Vamos 
supor que o custo da condição de contorno é 1 para o subarranjo de tamanho 0. 


io a (n-1)/2 (n-D/2 


(n-1)/2-1 (n-1)/2 
(a) (b) 


Figura 7.5 (a) Dois níveis de uma árvore de recursão para quicksort. O particionamento na raiz custa n e produz uma divisão “ruim”: 
dois subarranjos de tamanhos 0 e n — 1. O particionamento do subarranjo de tamanho n — 1 custa n — 1 e produz uma divisão “boa”: 
subarranjos de tamanhos (n — 1/2 — 1 e (n — 1)/2. (b) Umúnico nível de uma árvore de recursão que está muito bem equilibrada. Em 
ambas as partes, o custo de particionamento para os subproblemas mostrados nas elipses sombreadas é Q(n). Ainda assim, os 
subproblemas que ainda faltamresolver em (a), mostrados nos retângulos sombreados, não são maiores que os subproblemas que ainda 
faltam resolver em (b). 


A combinação da divisão ruim seguida pela divisão boa produz três subarranjos de tamanhos 0, (n— 1/2 —- 1 e(n 
— 1/2, a um custo de particionamento combinado de Q(n) + Q(n — 1) = Q(n). Certamente essa situação não é pior 
que a da Figura 7.5(b), ou seja, um único nível de particionamento que produz dois subarranjos de tamanho (n — 2, 
ao custo Q(n). Ainda assim, esta última situação é equilibrada! Intuitivamente, o custo Q(n — 1) da divisão ruim pode 
ser absorvido no custo Q(n) da divisão boa, e a divisão resultante é boa. Assim, o tempo de execução do quicksort, 
quando os níveis se alternam entre divisões boas e ruins, é semelhante ao tempo de execução para divisões boas 
sozinhas: ainda O(n lg n), mas com uma constante ligeiramente maior oculta pela notação O. Faremos uma análise 
rigorosa do tempo de execução esperado de uma versão aleatorizada do quicksort na Seção 7.4.2. 


Exercícios 


7.2-1 Use o método de substituição para provar que a recorrência T(n) = T(n — 1) + Q(n) tem a solução T(n) = 
Q(n,), como afirmamos no início da Seção 7.2. 


7.2-2 Qualé o tempo de execução de Quicksorr quando todos os elementos do arranjo 4 têm o mesmo valor? 


7.2-3 Mostre que o tempo de execução do Quicksorr é Q(n,) quando o arranjo 4 contém elementos distintos e está 
ordenado em ordem decrescente. 


7.2-4 Os bancos frequentemente registram transações em uma conta na ordem dos horários das transações, mas 
muitos clientes gostam de receber em seus extratos bancários uma relação de cheques por ordem do número 
do cheque. Normalmente, as pessoas preenchem cheques na ordem do número do cheque, e os comerciantes 
normalmente, os descontam com presteza razoável. Portanto, o problema de converter a ordenação pela hora 
da transação na ordenação pelo número do cheque é o problema de ordenar uma entrada quase ordenada. 


Demonstre que o procedimento Inserrion-Sorr tenderia a superar o procedimento Quicksorr nesse problema. 


7.2-5 Suponha que as divisões em todo nível do quicksort estejam na proporção 1 — a para a, onde O < a < 1/2 é 
uma constante. Mostre que a profundidade mínima de uma folha na árvore de recursão é aproximadamente 
“le nlg a e a profundidade máxima é aproximadamente —lg n/lg(1 — a). (Não se preocupe com 
arredondamento.) 
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Demonstre que, para qualquer constante O < a < 1/2, a probabilidade de que, em um arranjo de entradas 
aleatórias, Parrmon produza uma divisão mais equilibrada que 1 — a para a é aproximadamente 1 — 2a. 


7.3 UMA vERSÃO ALEATORIZADA DO QUICKSORT 


Quando exploramos o comportamento do caso médio do quicksort, adotamos a premissa de que todas as 
permutações dos números de entrada são igualmente prováveis. Porém, em uma situação de engenharia nem sempre 
podemos esperar que tal premissa se mantenha válida (veja o Exercício 7.2-4). Como vimos na Seção 5.3, às vezes, 
podemos acrescentar aleatorização a um algoritmo para obter bom desempenho esperado para todas as entradas. 
Muítos consideram a versão aleatorizada do quicksort resultante o algoritmo de ordenação preferido para entradas 
suficientemente grandes. 

Na Seção 5.3, aleatorizamos nosso algoritmo permutando explicitamente a entrada. Também poderíamos fazer isso 
para o quicksort, mas uma técnica de aleatorização diferente, denominada amostragem aleatória, produz uma análise 
mais simples. Em vez de sempre usar 4[r] como pivô, selecionaremos um elemento escolhido aleatorimente no 
subarranjo A[p .. 7]. Para tal, em primeiro lugar permutamos o elemento 4[7] por um elemento escolhido aleatoriamente 
em Alp .. r]. Tomar amostras aleatórias na faixa p, ..., r, assegura que o elemento pivô x = A[r] tem a mesma 
probabilidade de ser qualquer um dos r — p + 1 elementos no subarranjo. Como escolhemos o elemento pivô 
aleatoriamente, esperamos que a divisão do arranjo de entrada seja razoavelmente bem equilibrada na média. 

As mudanças em Parrrmon E Quicksorr são pequenas. No novo procedimento de partição, simplesmente 
implementamos a troca antes do particionamento propriamente dito: 


RANDOMIZED-PARTITION(A, p, 1) 
1 i= RANDOM(p,r) 

2 trocar A[p] por A[i] 

3 return PARTITION(A, p, 1) 


O novo quicksort chama Ranpomizen-PartmoN em vez de Parrtrrion: 


RANDOMiIZzed-QUICKSORT(A, p, 1) 
lifp<r 

2 | q = RANDOMIZED-PARTITION(A, p, 1) 
3  RANDOMiIzed-QUICKSORT(A,p,q — 1) 
4 | RANDOMiIzed-QUICKSORT(A, q + 1,1) 


Analisaremos esse algoritmo na próxima seção. 


Exercícios 


Por que analisamos o tempo de execução esperado de um algoritmo aleatorizado e não seu tempo de 


3-1 execução do pior caso? 


7.3-2 Durante a execução do procedimento Ranvomized-Quicksorr, quantas chamadas são feitas ao gerador de 
números aleatórios Random no pior caso? E no melhor caso? Dê a resposta em termos de notação Q. 


7.4 ANÁLISE DO QUICKSORT 


A Seção 7.2 nos deu uma ideia do comportamento do pior caso do quicksort e do motivo por que esperamos que 
ele fincione rapidamente. Nesta seção, analisaremos o comportamento do quicksort mais rigorosamente. 
Começaremos com uma análise do pior caso, que se aplica a Quicksorr ou a Ranpomized-Quicksorr, e concluímos com 
uma análise do tempo de execução esperado de Ranbomized-Quicksorr. 


7.4.1] ANÁLISE DO PIOR CASO 


Vimos na Seção 7.2 que uma divisão do pior caso em todo nível de recursão do quicksort produz um tempo de 
execução Q(n,) que, intuitivamente, é o tempo de execução do pior caso do algoritmo. Agora, vamos provar essa 
afirmação. 

Usando o método de substituição (veja Seção 4.3), podemos mostrar que o tempo de execução do quicksort é 
O(n,). Seja T(n) o tempo do pior caso para o procedimento Quicxsorr para uma entrada de tamanho n. Temos a 
recorrência 


T(n) < max(Tg)+T(n-g-1)+O(n), 
0<q<n-1 (7.1) 


onde o parâmetro q está na faixa de O a n — 1 porque o procedimento Parrrrion produz dois subproblemas com 
tamanho total n — 1. Nosso palpite é que T(n) < cn, para alguma constante c. Substituindo esse palpite na recorrência 
(7.1), obtemos 


T(n) < max(cg) +c(n-g-1))+O(n) 


0O<g<n-—l 
=c-max(g” +(n-q-1))+O(n). 
0O<g<n-l 


A expressão q, + (n — q — 1)2 atinge um máximo na fáixa do parâmetro O < q <n — 1 em qualquer das extremidades. 
Para verificar essa afirmativa, observe que a derivada de segunda ordem da expressão em relação a q é positiva (veja o 
Exercício 7.4-3). Essa observação nos dá o limite max) <a<n-Hg?+(n-g-D)<(n-1P=nº-2n+1. 
Continuando com nossa definição do limite de T(n), obtemos 


T(n) < cn” — c(2n — D) + O(n) 


CU, 


visto que podemos escolher a constante c suficientemente grande de modo que o termo c(2n — 1) domine o termo 
Q(n). Assim, T(n) = O(n,). Vimos na Seção 7.2 um caso específico no qual o quicksort demora o tempo (n,): quando 
o particionamento é desequilibrado. Como alternativa, o Exercício 7.4-1 pede que você mostre que a recorrência (7.1) 
tem uma solução T(n) = (n,). Assim, o tempo de execução (do pior caso) do quicksort é Q(n,). 


7.4.2 TEMPO DE EXECUÇÃO ESPERADO 


Já vimos a intuição que nos diz por que o tempo de execução do caso médio de Ranpomizen-Quicksorr é O(n lg n): 
se, em cada nível de recursão, a divisão induzida por Ranpomizen-Parrrrion colocar qualquer fração constante dos 
elementos em um lado da partição, a árvore de recursão terá a profundidade Q(lg n), e o trabalho O(n) será executado 
em cada nível. Amnda que acrescentemos alguns novos níveis com a divisão mais desequilibrada possível entre esses 
níveis, o tempo total permanece O(n lg n). Podemos analisar precisamente o tempo de execução esperado de 
Ranpomized-Quicksorr entendendo, em primeiro lugar, como o procedimento de particionamento funciona, e depois 
usando essa compreensão para derivar um limite O(n lg n) para o tempo de execução esperado. Esse limite superior 
para o tempo de execução esperado, combinado com o limite do melhor caso Q(n lg n) que vimos na Seção 7.2, 
produz um tempo de execução esperado Q(n lg n). Consideramos, do princípio ao fim, que os valores dos elementos 
que estão sendo ordenados são distintos. 


Tempo de execução e comparações 


A única diferença entre os procedimentos Quicksorr € Ranpomized-Quicksorr é O modo como selecionam elementos 
pivôs; em todos os outros aspectos eles são iguais. Portanto, podemos expressar nossa análise de RanDomizeD-QuiCKSORT 
discutindo os procedimentos Quicksorre Parrrmon, porém considerando que os elementos pivôs são selecionados 
aleatoriamente no subarranjo passado para RanDomizeD-ParTITION. 

O tempo de execução do Quicsorr é dominado pelo tempo gasto no procedimento Parrrmon. Toda vez que é 
chamado, o procedimento Parrrron seleciona um elemento pivô, e esse elemento nunca é incluído em nenhuma chamada 
recursiva futura a Quicksorre Parrrmion. Assim, pode haver, no máximo, n chamadas a Parrrrion durante a execução 
inteira do algoritmo de quicksort. Uma chamada a Parrron demora o tempo O(1) mais uma quantidade de tempo 
proporcional ao número de iterações do laço for nas linhas 3-6. Cada iteração desse laço for executa uma 
comparação na linha 4, comparando o elemento pivô com outro elemento do arranjo 4. Portanto, se pudermos contar 
o número total de vezes que a linha 4 é executada, poderemos limitar o tempo total gasto no laço for durante toda a 
execução de Quicksorr. 


Lema 7.1 


Seja X o número de comparações executadas na linha 4 de Parrrmon por toda a execução de Quicksorr para um 
arranjo de n elementos. Então, o tempo de execução do Quicksorr é O(n + X). 


Prova Pela discussão anterior, o algoritmo faz, no máximo, n chamadas a Parrrrion, cada uma das quais faz uma 
quantidade constante de trabalho e depois executa o laço for um certo número de vezes. Cada iteração do laço for 
executa a linha 4. 


Portanto, nossa meta é calcular X, o número total de comparações executadas em todas as chamadas a Parrrrion. 
Não tentaremos analisar quantas comparações são feitas em cada chamada a Parrmon. Em vez disso, deduziremos um 
limite global para o número total de comparações. Para tal, temos de entender quando o algoritmo compara dois 
elementos do arranjo e quando não compara. Para facilitar a análise, renomeamos os elementos do arranjo 4 como z,, 
Zo, --» Zp Sendo z; O i-ésimo menor elemento. Também definimos o conjunto Z, = tz, Z; + 1, ..., Z;j como o conjunto de 
elementos entre z; e z,, inclusive. 

Quando o algoritmo compara z; e z;? Para responder a essa pergunta, primeiro observamos que cada par de 
elementos é comparado no máximo uma vez. Por quê? Os elementos são comparados apenas com o elemento pivô e, 
depois que uma chamada específica de Parrrrion termina, o elemento pivô usado nessa chamada nunca mais é 
comparado com nenhum outro elemento. 

Nossa análise utiliza variáveis aleatórias indicadoras (veja Seção 5.2). Definimos 


X, = I tz, é comparado comz), 
J) t ] 


onde consideramos a comparação se ocorre em algum instante durante a execução do algoritmo, não apenas durante 
uma iteração ou uma chamada de Parrrron. Visto que cada par é comparado no máximo uma vez, podemos caracterizar 
facilmente o número total de comparações executadas pelo algoritmo: 


nH— 


1 n 
da DEDE A 
i=1 j=i41 


Tomando as esperanças em ambos os lados e depois usando linearidade de esperança e o Lema 5.1, obtemos 


ES] = ES 5,5; 


i=1 j=i+1 
n-1 n 
= 55, Prlz, écomparado com z,). (7.2) 


i=1 j=i+l 


resta calcular Pr (z: é comparado com zi). Nossa análise supõe que o procedimento Ranpomien-Parrimion escolhe cada 
pivô de modo aleatório e independente. 

Vamos pensar no caso em que dois ítens não são comparados. Considere uma entrada para quicksort dos 
números 1 a 10 (em qualquer ordem) e suponha que o primeiro elemento pivô seja 7. Então, a primeira chamada a 
ParrrmioN separa os números em dois conjuntos: (1, 2, 3,4,5,6) e 48, 9, 10). Ao fazer isso, o elemento pivô 7 é 
comparado com todos os outros elementos, mas nenhum número do primeiro conjunto (por exemplo, 2) é ou jamais 
será comparado com qualquer número do segundo conjunto (por exemplo, 9). 

Em geral, visto que supomos que os valores dos elementos são distintos, uma vez escolhido um pivô x com z,< x < 
z; sabemos que z; e z; não podem ser comparados em nenhum momento subsequente. Se, por outro lado, z; for 
escolhido como um pivô antes de qualquer outro item em Z,,, z; será comparado com cada item em Z;,, exceto ele 
mesmo. De modo semelhante, se z; for escolhido como pivô antes de qualquer outro item em Z,, então z; será 
comparado com cada item em Z,,, exceto ele próprio. Em nosso exemplo, os valores 7 e 9 são comparados porque 7 é 
o primeiro item de Z,,º a ser escolhido como pivô. Em contraste, 2 e 9 nunca serão comparados porque o primeiro 
elemento pivô escolhido de Z,,9 é 7. Assim, z, e z, são comparados se e somente se o primeiro elemento a ser escolhido 
como pivô de Z; for z, ou z;. 

Agora, calculamos a probabilidade de esse evento ocorrer. Antes do ponto em que um elemento de Z, foi 
escolhido como pivô, todo o conjunto Z,; está reunido na mesma partição. Por conseguinte, qualquer elemento de Z,, 
tem igual probabilidade de ser o primeiro escolhido como pivô. Como o conjunto Z; tem; — i + 1 elementos, e visto 
que os pivôs são escolhidos de modo aleatório e independente, a probabilidade de qualquer elemento dado ser o 
primeiro escolhido como pivô é 1/(j — i + 1). Assim, temos 

Pr (z, é comparado com Z) = Priz,ou Z; é o primeiro pivô escolhido de Zj 


Pr tz, é o primeiro pivô escolhido de Z, ) 
+ Pr lz é o primeiro pivô escolhido de Z,) 


1 1 
TETE 

j=1+1 j-141 

-—— (7.3) 
feio 


A segunda linha decorre porque os dois eventos são mutuamente exclusivos. Combinando as equações (7.2) e (7.3), 


obtemos 
ga=5,5) + 


Ei js] — 141 


Podemos avaliar essa soma usando uma troca de variáveis (k = j — i) e o limite para a série harmônica na equação 
(A.7): 


Ep) = 55 


i=1 j= a j— 

n—1 n-i 2 

A a k+1 (7.4) 
n—-1 n 2 


i=1 k=1 k 
n—1 
= 5 O(lgn) 
i=1 
= O(nlgn) 
Assim, concluímos que, usando Ranpomizen-Parrimion, O tempo de execução esperado de quicksort é O(n lg n) quando 
os valores dos elementos são distintos. 
Exercícios 


7.4-1 Mostre que, na recorrência 


T(n)= max (T(g) +T(n—qg— 1) + O(n), 


O<g<n-—l 
Ta) = Cr). 


7.4-2 Mostre que o tempo de execução do melhor caso do quicksort é (n lg n). 


7.4-3 Mostre que a expressão q, + (n — q — 1)2 atinge um máximo em g = 0, 1,...,n— 1 quando g = 0 oug =n — 
li 


7.4-4 Mostre que o tempo de execução esperado do procedimento Ranpomized-Quicksorr é (n lg nn). 


7.4-5 Podemos melhorar o tempo de execução do quicksort na prática tirando proveito do tempo de execução 
rápido da ordenação por inserção quando sua entrada está “quase” ordenada. Ao chamar o quicksort para 
um subarranjo com menos de k elementos, deixe-o simplesmente retornar sem ordenar o subarranjo. Após o 
retorno da chamada de alto nível a quicksort, execute a ordenação por inserção para o arranjo inteiro para 
concluir o processo de ordenação. Mostre que esse algoritmo de ordenação é executado no tempo esperado 
O(nk + n leg(n/k)). Como k deve ser escolhido, tanto na teoria quanto na prática? 
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Considere modificar o procedimento Parrrrion escolhendo aleatoriamente três elementos do arranjo 4 e 
executando a partição em torno de sua mediana (o valor médio dos três elementos). Dê uma aproximação 
para a probabilidade de obter na pior das hipóteses uma divisão o para (1 — a) em função de a no intervalo O 
<a<l. 


Problemas 


7-1 Correção da partição de Hoare 


A versão de Parrrron dada neste capítulo não é o algoritmo de particionamento original. Apresentamos a 
seguir o algoritmo de partição original, que deve seu nome a C.A.R. Hoare: 


HoaRrE-PARTITION(A, p, 1) 


1 x=Alp] 
2i=p-l1 
3 j=r41 
4 while TRUE 
5 repeat 


6 j=j-1 

7 until Al/] < x 
8 repeat 
9 


i=i+1 
10 until A[i] > x 
11 ifi<j 
12 trocar A[i] por Al;] 


13 else return j 


a. Demonstre a operação de Hoare-Partrmon sobre o arranjo 4 = (13, 19,9,5, 12,8, 7,4, 11,2, 6,21), 
mostrando os valores do arranjo e os valores auxiliares após cada iteração do laço for das linhas 413. 


As três perguntas seguintes pedem que você apresente um argumento cuidadoso de que o procedimento 
Hoare-ParriTION É Correto. Levando em conta que o subarranjo A[p .. r]contém pelo menos dois elementos, 
prove que: 


b. Os índices i e j são tais que nunca acessamos um elemento de 4 fora do subarranjo A[p .. 7]. 
c. Quando Hoare-Parrmon termina, ele retorna um valor j tal que p <j < rr. 


d. Todo elemento de Alp .. ;] é menor ou igual a todo elemento de Al; + 1 .. 7] quando Hoare-Parrmon 
termina. 


7-2 


7-3 


O procedimento Parrrron da Seção 7.1 separa o valor do pivô (originalmente em A[7]) das duas partições que 
ele forma. Por outro lado, o procedimento Hoarr-Parrtmon sempre insere o valor do pivô (originalmente em 
A[p]) em uma das duas partições Alp .. jJe Alj + 1..7]. Visto que p <j < r, essa divisão é sempre não 
trivial. 


e. Reescreva o procedimento Quicksorr para usar Hoarg-PaRTITION. 
Quicksort COM elementos de valores iguais 


A análise do tempo de execução esperado do Quicksorr aleatorizado na Seção 7.4.2 supõe que todos os 
valores dos elementos são distintos. Neste problema, examinamos o que acontece quando não são. 


a. Suponha que todos os valores dos elementos sejam iguais. Qual seria o tempo de execução do quicksort 
aleatorizado nesse caso? 


b. O procedimento Parrmon retorna um índice q tal que cada elemento de Alp. . q — 1] é menor ou igual a 
Alg] e cada elemento de Alg + 1... 7] é maior que A4[g]. Modifique o procedimento Parrrron para 
produzir um procedimento Parrmon(A, p, 7), que permuta os elementos de Alp . .r] e retorna dois 
índices get, ondep<g <t<r,tal que 


* todos os elemento de 4[g. . t] são iguais, 

* cada elemento de A[p.. q — 1] é menor do que 4[g], e 

* cada elemento de A[t + 1] é maior que 4[g]. 

Como o procedimento Parrrrion, o seu procedimento Parrmon” deve demorar o tempo Q(r — p). 


c. Modifique o procedimento Ranpomien-Partirion para chamar Parrrion” e denomine o novo procedimento 
Ranpomizep-PartiTioN”. Então, modifique o procedimento Quicksorr para produzir um procedimento 
Quicksorr (p, 1) que chama Ranpomizen-PartITION” E É recursivo somente em partições de elementos que 
sabemos que não são iguais uns aos outros. 


d. Usando Quicksorr”, como você ajustaria a análise na Seção 7.4.2 para evitar a premissa de que todos os 
elementos são distintos? 


Andálise alternativa do Quicksort 


Uma análise alternativa do tempo de execução de quicksort aleatorizado focaliza o tempo de execução 
esperado de cada chamada recursiva individual a Ranvomizen-Quicksorr, em vez do número de comparações 
executadas. 


a. Demonstre que, dado um arranjo de tamanho n, a probabilidade de qualquer elemento específico ser 
escolhido como pivô é 1/n. Use isso para definir variáveis aleatórias indicadoras X, = I fo i-ésimo menor 
elemento é escolhido como pivô). Qual é ELX]? 


b. Seja T(n) uma variável aleatória que denota o tempo de execução do quicksort para um arranjo de 
tamanho n. Demonstre que 


ET =E32X,0 (g-D+T(n-q)+(n))|. (7.5) 


7-4 


c. Mostre que podemos reescrever a equação (77.5) como 


E[T(n)] Ds] ET (9)] + O(n). (7.6) 


n q=2 


d. Mostre que 


Ss k lg k < á “lg n— e nº (7.7) 


k=2 


(Sugestão: Divida o somatório em duas partes, uma para k = 2,3,..., n/2-— | ecumapara k= n/2,..., 
oa) 


d. Usando o limite da equação (7.7), mostre que a recorrência na equação (7.6) tem a solução E[T(n)| = 
Q(n lg n). (Sugestão: Mostre, por substituição, que E[T(n)] < an log n — bn para n suficientemente 
grande e para alguma constante positiva a.) 


Profundidade de pilha para Quicksort 


O algoritmo Quicksorr da Seção 7.1 contém duas chamadas recursivas a ele próprio. Após chamar Parrmon, O 
Quicksorr ordena recursivamente o subarranjo da esquerda e depois ordena recursivamente o subarranjo da 
direita. A segunda chamada recursiva em Quicxsorrnão é realmente necessária; podemos evitá-la utilizando 
uma estrutura de controle iterativa. Essa técnica, denominada recursão de cauda, é automaticamente 
fornecida por bons compiladores. Considere a versão de quicksort a seguir, que simula a recursão de cauda: 


TarL-RECURSIVE-QUICKSORT(A, p, 1) 


1 
2 
9 
4 
o 


while p <r 
/! Particionar e ordenar o subarranjo esquerdo. 
q = PARTITION(A, p, 1) 
TarL-RECURSIVE-QUICKSORT(A. p,q— 1) 
p=q+1 


a. Mostre que Tar-Recursive-Quicksorr(A, 1, A. length) ordena corretamente o arranjo 4. 


Os compiladores normalmente, executam procedimentos recursivos usando uma pilha que contém 
informações pertinentes, inclusive os valores de parâmetros para cada chamada recursiva. As informações 
para a chamada mais recente estão na parte superior da pilha, e as informações para a chamada inicial 
encontram-se na parte inferior. Quando um procedimento é invocado, suas informações são empurradas 
sobre a pilha; quando ele termina, suas informações são extraídas. Visto que supomos que os parâmetros 
arranjos são representados por ponteiros, as informações para cada chamada de procedimento na pilha 
exigem espaço de pilha O(1). A profundidade de pilha é a quantidade máxima de espaço de pilha usado em 
qualquer instante durante uma computação. 


b. Descreva um cenário no qual a profundidade de pilha de Tan -Recursive-Quicksorr é Q(n) para um arranjo 
de entrada de n elementos. 


c. Modifique o código para Tar.-Recursive-Quicksorr de tal modo que a profundidade de pilha do pior caso 
seja Q(lg 1). Mantenha o tempo de execução esperado O(n lg nn) do algoritmo. 


Partição de mediana de 3 


Um modo de melhorar o procedimento Ranpomizen-Quicksorr é particionar em torno de um pivô escolhido com 
maior cuidado que escolher um elemento aleatório do subarranjo. Uma abordagem comum é o método da 
mediana de 3: escolha como pivô a mediana (o elemento do meio) de um conjunto de 3 elementos 
selecionados aleatoriamente no subarranjo (veja o Exercício 77.4-6). Para esse problema, vamos supor que os 
elementos no arranjo de entrada A[1 .. n] sejam distintos e que n > 3. Denotamos o arranjo de saída 
ordenado por 4º [1.. n]. Usando o método da mediana de 3 para escolher o elemento pivô x, defina p, = 
Prix = 4º [i]). 


a. Dê uma fórmula exata para p: em função den e iparai=2,3,...,n-— 1. (Observe que p= p,=0.) 


b. De quanto aumentamos a probabilidade de escolher como pivô x = 4”[(n + 1)/2], a mediana de A[1.. n], 


em comparação com a implementação comum? Suponha que n — e dê o limte da razão dessas 
probabilidades. 


c. Se definirmos que uma “boa” divisão significa escolher o pivô como x = 4º[i], onde n/3 < i < 2n/3, de 
quanto aumentamos a probabilidade de obter uma boa divisão em comparação com a implementação 
comum? (Sugestão: Aproxime a soma por uma integral.) 


d. Mostre que, no tempo de execução (n lg n) do quicksort, o método da mediana de 3 só afeta o fator 
constante. 


7-6 Ordenação nebulosa de intervalos 


Considere um problema de ordenação no qual não conhecemos os números exatamente. Em vez disso, para 

cada número conhecemos um intervalo na linha dos números reais ao qual ele pertence. Isto é, temos n 

intervalos fechados da forma [a,, b;], onde a, < b,. Queremos executar a ordenação nebulosa desses 

intervalos, isto é, produzir uma permutação (i,, à, ..., i,) dos intervalos tal que, para j = 1,2, ..., n, exista c; E 

La; Dil que satisfaz c <c,<.. <c,. 

a. Projete um algoritmo aleatorizado para executar ordenação nebulosa de n intervalos. Seu algoritmo deve 
ter a estrutura geral de um algoritmo que executa quicksort nas extremidades esquerdas (os valores ai), 
mas deve tirar proveito da sobreposição de intervalos para melhorar o tempo de execução. (À medida 
que os intervalos se sobrepõem mais e mais, o problema da ordenação nebulosa dos intervalos torna-se 
cada vez mais fácil. Seu algoritmo deve tirar proveito dessa sobreposição até onde ela existir.) 


b. Demonstre que seu algoritmo é executado no tempo esperado Q(n lg n) em geral, mas funciona no tempo 
esperado Q(n) quando todos os intervalos se sobrepõem (isto é, quando existe um valor x tal que x €& 
[a;, bi] para todo i). O algoritmo não deve verificar esse caso explicitamente; em vez disso, seu 
desempenho deve melhorar naturalmente à medida que a proporção de sobreposição aumentar. 


NorTas DO CAPÍTULO 


O procedimento quicksort foi inventado por Hoare [170]; a versão de Hoare aparece no Problema 7-1. O 
procedimento Parrrron dado na Seção 7.1 se deve a N. Lonuto. A análise da Seção 7.4 se deve a Avrim Blum. 
Sedgewick [305] e Bentley [43] nos dão uma boa referência sobre os detalhes de implementação e como eles são 
importantes. 

Mcliltoy [248] mostrou como gerar um “adversário matador” que produz um arranjo para o qual praticamente 
qualquer implementação do quicksort demora o tempo Q(n,). Se a implementação for aleatorizada, o adversário 
produz o arranjo depois de examinar as escolhas aleatórias do algoritmo do quicksort. 


(ORDENAÇÃO EM TEMPO LINEAR 


Apresentamos até agora vários algoritmos que podem ordenar n números no tempo O(n lg n). A ordenação por 
intercalação e a ordenação por heap atingem esse limite superior no pior caso; o quicksort o atinge na média. Além do 
mais, para cada um desses algoritmos, podemos produzir uma sequência de n números de entrada que faz o algoritmo 
ser executado no tempo (n lg n). 

Esses algoritmos compartilham uma propriedade interessante: a seguência ordenada que eles determinam se 
baseia apenas em comparações entre os elementos da entrada. Denominamos esses algoritmos de ordenação 
ordenações por comparação. Todos os algoritmos de ordenação apresentados até aqui são ordenações por 
comparação. 

Na Seção 8.1, provaremos que, para ordenar n elementos, qualquer ordenação por comparação deve efetuar (n lg 
n) comparações no pior caso. Assim, a ordenação por intercalação e a ordenação por heap são assintoticamente 
ótimas e não existe nenhuma ordenação por comparação que seja mais rápida por mais de um fator constante. 

As Seções 8.2, 8.3 e 8.4 examinam três algoritmos de ordenação — ordenação por contagem, ordenação digital e 
ordenação por balde — que são executados em tempo linear. É claro que esses algoritmos utilizam outras operações 
diferentes de comparações para determinar a sequência ordenada. Por consequência, o limite inferior (n lg n) não se 
aplica a eles. 


8.1 Limites INFERIORES PARA ORDENAÇÃO 


Em uma ordenação por comparação, usamos somente comparações entre elementos para obter informações de 
ordem para uma sequência de entrada (a,, a,, ..., a). Isto é, dados dois elementos a; e a,, executamos um dos testes a; 
<a,aSa,a=a,a>ajoua;2 a, para determinar sua ordem relativa. Não podemos mspecionar os valores dos 
elementos nem obter informações de ordem sobre eles de qualquer outro modo. 

Nesta seção, consideramos, sem perder a generalidade, que todos os elementos de entrada são distintos. Adotada 
essa premissa, comparações da forma a, = a; são inúteis, portanto podemos admitir que nenhuma comparação desse 
tipo é feita. Também observamos que as comparações a, <a, a;>2a,a;>a;ea;< a; são equivalentes, já que 
produzem informações idênticas sobre a ordem relativa de a; e a;. Portanto, consideramos que todas as comparações 
têm a forma a; < a. 


O modelo de árvore de decisão 


Podemos imaginar as ordenações por comparação como árvores de decisão. Uma árvore de decisão é uma 
árvore binária cheia que representa as comparações entre elementos executadas por um determinado algoritmo de 
ordenação aplicado a uma entrada de dado tamanho. Controle, movimentação de dados e todos os outros aspectos do 
algoritmo são ignorados. A Figura 8.1 mostra a árvore de decisão correspondente ao algoritmo de ordenação por 
inserção da Seção 2.1, aplicado a uma sequência de entrada de três elementos. 


Figura 8.1 Árvore de decisão para ordenação por inserção para três elementos. Umnó intemo anotado como i:j indica uma comparação 
entre aie ai. Uma folha anotada como permutação (p(1), p(2), ..., p(n)) indica a ordenação a <a, )<-..<a (ny: O caminho sombreado indica 
as decisões tomadas durante a ordenação da sequência de entrada (a, =6,4,=8,a,= 5); a permutação (3, 1, 2) na folha indica que a 
sequência ordenada é a,=5<a,=6<a,=8. Existem3! = 6 permutações possíveis dos elementos de entrada; assim, a árvore de decisão 
deve ter no mínimo seis folhas. 


Em uma árvore de decisão, anotamos cada nó interno como ij para algumi e; na faixa 1 <i,j<n,ondenéo 
número de elementos na sequência de entrada. Também anotamos cada folha como uma permutação (p(1), p(2), ..., 
p(n)) (a Seção C.1 dá os findamentos de permutações). A execução do algoritmo de ordenação corresponde a traçar 
um caminho simples desde a raiz da árvore de decisão até uma folha. Cada nó interno indica uma comparação a; < a,. 
Então, a subárvore da esquerda determina comparações subsequentes, já que sabemos que a, < a, e a subárvore da 
direita determinam comparações subsequentes sabendo que a; > a; Quando chegamos a uma folha, o algoritmo de 
ordenação estabeleceu a ordenação ap(!) < ap()<.... < ap(,). Como qualquer algoritmo de ordenação correto deve ser 
capaz de produzir cada permutação de sua entrada, cada uma das n! permutações em n elementos deve aparecer como 
uma das folhas da árvore de decisão para uma ordenação por comparação ser correta. Além disso, cada uma dessas 
folhas deve ser acessível a partir da raiz por um caminho descendente correspondente a uma execução propriamente 
dita da ordenação por comparação (essas folhas serão denominadas “acessíveis”. Assim, consideraremos apenas 
árvores de decisão nas quais cada permutação aparece como uma folha acessível. 


Um limite inferior para o pior caso 


O comprimento do caminho simples mais longo desde a raiz de uma árvore de decisão até qualquer de suas folhas 
acessíveis representa o número de comparações do pior caso que o algoritmo de ordenação correspondente executa. 
Consequentemente, o número de comparações do pior caso para dado algoritmo de ordenação por comparação é igual 
à altura de sua árvore de decisão. Um limite mferior para as alturas de todas as árvores de decisão nas quais cada 
permutação aparece como uma folha acessível é, portanto, um limite inferior para o tempo de execução de qualquer 
algoritmo de ordenação por comparação. O teorema a seguir estabelece esse limite inferior. 


Teorema 8.1 


Qualquer algoritmo de ordenação por comparação exige (n lg n) comparações no pior caso. 


Prova Pela discussão precedente, basta determinar a altura de uma árvore de decisão na qual cada permutação 
aparece como uma folha acessível. Considere uma árvore de decisão de altura h com / folhas acessíveis correspondente 
a uma ordenação por comparação sobre n elementos. 


Como cada uma das n! permutações da entrada aparece como alguma folha, temos n! < 7. Visto que uma árvore binária 
de altura A não tem mais de 24 folhas, temos 


m<I<Ãã, 


que, tomando logaritmos, implica 


h > Ig(n!) (já que a função lg é monotonicamente crescente) 


= O (nlgn) (pela equação (3.19)). 


Corolário 8.2 


A ordenação por heap e a ordenação por intercalação são ordenações por comparação assintoticamente ótimas. 


Prova Os limites superiores O(n lg n) para os tempos de execução para ordenação por heap e ordenação por 
intercalação correspondem ao limite mferior (n lg n) do pior caso do Teorema 8.1. 


Exercícios 


8.1-1 


8.1-2 


8.1-3 


8.1-4 


Qual é a menor profundidade possível de uma folha em uma árvore de decisão para ordenação por 
comparação? 


Obtenha limites assintoticamente justos para lg(n!) sem usar a aproximação de Stirling. Em vez disso, avalie o 
n 
DrlBk 


Mostre que não existe nenhuma ordenação por comparação cujo tempo de execução seja linear para, no 
mínimo, metade das n! entradas de comprimento n. E no caso de uma fração 1/n das entradas de 
comprimento nn? E no caso de uma fração 1/22 


somatório , empregando técnicas da Seção A.2. 


Suponha que você recebeu uma sequência de n elementos para ordenar. A sequência de entrada consiste em 
n /k subsequências, cada uma contendo k elementos. Os elementos em uma dada subsequência são todos 
menores que os elementos na subsequência seguinte e maiores que os elementos na subsequência precedente. 
Assim, para ordenar a sequência inteira de comprimento n, basta ordenar os k elementos em cada uma das 
n/k subsequências. Mostre um limite mferior On lg k) para o número de comparações necessárias para 
resolver essa variante do problema de ordenação. (Sugestão: Não é rigoroso simplesmente combinar os 
limites inferiores para as subsequências individuais.) 


8.2 (ORDENAÇÃO POR CONTAGEM 


A ordenação por contagem supõe que cada um dos n elementos de entrada é um inteiro na faixa 1 a k, para algum 
inteiro k. Quando k = O(n), a ordenação é executada no tempo Q(n). 

A ordenação por contagem determina, para cada elemento de entrada x, o número de elementos menores que x e 
usa essa informação para inserir o elemento x diretamente em sua posição no arranjo de saída. Por exemplo, se 17 


elementos forem menores que x, então x pertence à posição de saída 18. Temos de modificar ligeiramente esse 
esquema para lidar com a situação na qual vários elementos têm o mesmo valor, já que não queremos inserir todos eles 
na mesma posição. 

No código para ordenação por contagem, consideramos que a entrada é um arranjo 4[1 .. n] e, portanto, de 
A: comprimento = n. Precisamos de dois outros arranjos: o arranjo B[1 .. n] contém a saída ordenada e o arranjo C[0 
.. k] fornece armazenamento temporário adequado. 


| 2 343 6 7 8 I 345678 
a[2[s[3/0[2[3/0/3] a Es s HERERR : 
(O) | 2 3 4 5 C|2/2/4/7/7/8 0) l 2 3 4 S 
cl2[0]2]3/o0/1| c/2[2[4[6[7]8| 
(a) (b) (c) 
l 2 3 4 5 6 7 8 LIS ASA TS 
s [o [| s [o BRs [| SERES 
(0) l 2 BG vd 5 0 l 2 3 & 55 B MBB 
c EBEEIRE! cli[2[4[5[7]8| 


(d) (e) (1) 


Figura 8.2 Operação de Counrrnc-Sorr para um arranjo de entrada 41... 8, onde cada elemento de 4 é uminteiro não negativo não maior 
que k=s5. (a) O arranjo 4 e o arranjo auxiliar C após a linha 5. (b) O arranjo C após a linha 8. (c)-(e) O arranjo de saída Be o arranjo 
auxiliar C após uma, duas e três iterações do laço nas linhas 10-12, respectivamente. Apenas os elementos do arranjo B sombreados em 
tommais claro foram preenchidos. (f)) O arranjo de saída ordenado final B. 


CounTING-SORT(A,B, k) 

1 seja C[0.. k] um novo arranjo 
2 fori=0Otok 

3 C[]=0 

4 forj=1to A-comprimento 

5 CIAjJ=CIAjI+I 

6 | Cli] agora contém o número de elementos igual a 1. 

7 fori=l]tok 

8 Cp] = Cl 4C=4] 

9 | Cli] agora contém o número de elementos menores que ou iguais a 1. 
10 forj= A-comprimento downto 1 

1 BICIAI]] = Alj] 

12 CIAjJ=CIAG]-1 


A Figura 8.2 ilustra a ordenação por contagem. Após o laço for das linhas 2-3 inicializar o arranjo C para todos 
os zeros, o laço for das linhas 4-5 inspeciona cada elemento da entrada. Se o valor de um elemento de entrada é i, 
incrementamos Cfi]. Assim, depois da linha 5, C[i] contém o número de elementos de entrada igual a i para cada inteiro 
i=0, 1,..., k. As linhas 7-8 determinam para cada i = 0, 1, ..., k quantos elementos de entrada são menores ou iguais 
a i, mantendo uma soma atualizada do arranjo C. 


Finalmente, o laço for das linhas 10-12 coloca cada elemento 4[;] em sua posição ordenada correta no arranjo de 
saída B. Se todos os n elementos forem distintos, quando entrarmos pela primeira vez a linha 10, para cada A[;], o 
valor C[A[; será a posição final correta de 4[;] no arranjo de saída, já que existem C[A4[; elementos menores 
ou iguais a 4[;]. Como os elementos poderiam não ser distintos, decrementamos C[4[; | toda vez que inserimos um 
valor A[;] no arranjo B. Decrementar C[A[; faz com que o próximo elemento de entrada com valor igual a 4[;], se 
existir algum, vá para a posição imediatamente anterior a A[;] no arranjo de saída. 

Quanto tempo a ordenação por contagem exige? O laço for das linhas 2-3 demora o tempo Q(k), o laço for das 
linhas 4-5 demora o tempo Q(n), o laço for das linhas 7-8 demora o tempo Q(k) e o laço for das linhas 10-12 
demora o tempo Q(n). Assim, o tempo total é Q(k + n). Na prática, normalmente usamos a ordenação por contagem 
quando temos k = O(n), caso em que o tempo de execução é Q(n). 

A ordenação por contagem supera o limite inferior de (n lg n) demonstrado na Seção 8.1 
porquenãoéumaordenaçãoporcomparação. Defato, nenhumacomparaçãoentreelementos de entrada ocorre em qualquer 
lugar no código. Em vez disso, a ordenação por contagem utiliza os valores reais dos elementos para efetuar a 
indexação em um arranjo. O limite mferior (n lg n) para ordenação não se aplica quando nos afastamos do modelo de 
ordenação por comparação. 

Uma propriedade importante da ordenação por contagem é ser estável: números com o mesmo valor aparecem no 
arranjo de saída na mesma ordem em que aparecem no arranjo de entrada. Isto é, ela desempata dois números segundo 
a regra de que qualquer número que aparecer primeiro no arranjo de entrada aparecerá primeiro no arranjo de saída. 
Normalmente, a propriedade de estabilidade só é importante quando dados satélites são transportados juntamente com 
o elemento que está sendo ordenado. A estabilidade da ordenação por contagem é importante por outra razão: a 
ordenação por contagem é usada frequentemente como uma sub-rotina em ordenação digital. Como veremos na 
próxima seção, para que a ordenação digital funcione corretamente, a ordenação por contagem deve ser estável. 


Exercícios 


8.2-1 Usando a Figura 8.2 como modelo, ilustre a operação de Counting-Sort sobre o arranjo 4 = (6, 0,2,0, 1,3, 
4, 6, 1,3, 2). 


8.2-2 Prove que Counting-Sort é estável. 

8.2-3 Suponha que reescrevêssemos o cabeçalho do laço for na linha 10 do procedimento Counting-Sort como: 
10 for; =1 to 4: comprimento 
Mostre que o algoritmo ainda funciona corretamente. O algoritmo modificado é estável? 


8.2-4 Descreva um algoritmo que, dados n inteiros na faixa O a k, reprocesse sua entrada e depois responde a 
qualquer consulta sobre quantos dos n inteiros caem em uma faixa [a .. b] no tempo O(1). Seu algoritmo deve 
utilizar o tempo de pré-processamento Q(n + k). 


8.3 (ORDENAÇÃO DIGITAL 


Ordenação digital é o algoritmo usado pelas máquinas de ordenação de cartões que agora só encontramos em 
museus de computadores. Os cartões têm 80 colunas, e em cada coluna uma máquina pode fazer uma perfuração em 
uma das 12 posições. O ordenador pode ser “programado” mecanicamente para examinar determinada coluna de cada 
cartão em uma pilha e distribuir o cartão em uma das 12 caixas, dependendo do local em que foi perfurado. Então, um 
operador pode reunir os cartões caixa por caixa, de modo que aqueles que tenham a primeira posição perfurada fiquem 
sobre os cartões que tenham a segunda posição perfurada, e assim por diante. 


No caso de dígitos decimais, cada coluna utiliza apenas 10 posições (as outras duas posições são reservadas para 
codificar caracteres não numéricos). Então, um número de d dígitos ocuparia um campo de d colunas. Visto que o 
ordenador de cartões pode examinar apenas uma coluna por vez, o problema de ordenar n cartões em um número de d 
digitos requer um algoritmo de ordenação. 

Intuitivamente, poderíamos ordenar números sobre seu dígito mais significativo, ordenar cada uma das caixas 
resultantes recursivamente e depois combinar as pilhas em ordem. Infelizmente, como os cartões em nove das 10 caixas 
devem ser postos de lado para ordenar cada uma das caixas, esse procedimento gera muitas pilhas intermediárias de 
cartões que devem ser controladas (veja o Exercício 8.3-5). 

A ordenação digital resolve o problema da ordenação de cartões — contra a intuição normal — ordenando 
primeiro pelo dígito menos significativo. Então, o algoritmo combina os cartões em uma única pilha, sendo que os 
cartões na caixa O precedem os cartões na caixa 1, que precedem os cartões na caixa 2, e assim por diante. Então, ele 
ordena novamente a pilha inteira pelo segundo dígito menos significativo e recombina a pilha de maneira semelhante. O 
processo continua até que os cartões tenham sido ordenados por todos os d dígitos. Notável é que, nesse ponto, os 
cartões estão completamente ordenados pelo número de d dígitos. Assim, a ordenação exige apenas d passagens pela 
pilha. A Figura 8.3 mostra como a ordenação digital funciona para uma “pilha” de sete números de três dígitos. 

Para que a ordenação digital funcione corretamente, as ordenações de dígitos devem ser estáveis. A ordenação 
executada por um ordenador de cartões é estável, mas o operador tem de tomar cuidado para não trocar a ordem dos 
cartões à medida que eles saem de uma caixa, ainda que todos os cartões em uma caixa tenham o mesmo dígito na 
coluna escolhida. 

Em um computador típico, que é uma máquina sequencial de acesso aleatório, às vezes, usamos ordenação digital 
para ordenar registros de informações chaveados por vários campos. Por exemplo, podemos querer ordenar datas por 
três chaves: ano, mês e dia. Podemos executar um algoritmo de ordenação com uma função de comparação que, dadas 
duas datas, compare anos e, se houver um empate, compare meses e, se ocorrer outro empate, compare dias. 
Alternativamente, podemos ordenar as informações três vezes com uma ordenação estável: primeiro pelo dia, em 
seguida pelo mês e, finalmente, pelo ano. 

O código para ordenação digital é direto. O procedimento a seguir considera que cada elemento no arranjo de n 
elementos 4 tem d dígitos, onde o dígito 1 é o dígito de ordem mais baixa e o dígito d é o dígito de ordem mais alta. 


RAaDIX-SORT (A, d) 
1 fori=ltod 
2 usar uma ordenação estável para ordenar o arranjo 4 sobre o dígito i 


Lema 8.3 


Dados n números de d dígitos nos quais cada dígito pode adotar até k valores possíveis, Radix--Sort ordena 
corretamente esses números no tempo Q(d(n + k)) se a ordenação estável levar o tempo Q(n + k). 


ERA, 720 720 29 
457 358 SO SS 
657 436 436 436 
839 uni 457 ni 839 mun 457 
436 657 ks 657 
120 328 451 120 
à pede 839 687 839 


Figura 8.3 Operação de ordenação digital sobre uma lista de sete números de três dígitos. A primeira coluna é a entrada. As colunas 
restantes mostrama lista após ordenações sucessivas de posições significativas de dígitos em ordem crescente. O sombreamento indica 
a posição do dígito ordenado para produzir cada lista a partir da anterior. 


Prova A correção da ordenação digital decorre por indução para a coluna que está sendo ordenada (veja o Exercício 
8.3-3). A análise do tempo de execução depende da ordenação estável usada como algoritmo de ordenação 
intermediária. Quando cada dígito está na faixa de O a k — 1 (de modo que pode adotar até k valores possíveis) e k não 
é muito grande, a ordenação por contagem é a escolha óbvia. Então, cada passagem sobre n números de d dígitos leva 
o tempo Q(n + k). Há d passagens e, assim, o tempo total para ordenação digital é Q(d(n + k)). 


Quando d é constante e k = O(n), podemos executar ordenação digital em tempo linear. De modo mais geral, 
temos alguma flexibilidade quanto aos modos de desmembrar cada chave em dígitos. 


Lema 8.4 


Dados n números de b bits e qualquer inteiro positivo r < b, Radix-Sort ordena corretamente esses números no 
tempo Q((b/r)(n + 27)) se a ordenação estável que o procedimento usa levar o tempo Q(n + k) para entradas na faixa 
de O a k. 


Prova Para um valor 7 < b, enxergamos cada chave como composta de d = b/r dígitos de r bits cada. Cada dígito é um 
inteiro na faixa O a 2r — 1, de modo que podemos usar a ordenação por contagem com k = 2r — 1. (Por exemplo, 
podemos considerar que uma palavra de 32 bits tem quatro dígitos de oito bits, de modo que b=32,r=8,k=2r-1 
= 255 ed = b/r = 4.) Cada passagem da ordenação por contagem leva o tempo Q(n + k) = Q(n+ 2) e há d 
passagens, o que dá um tempo de execução total de Q(d(n + 27)) = Q((b/r)(n + 27)). 


Para valores de n e b dados, desejamos escolher o valor de 7, com 7 < b, que minimiza a expressão (b/r)(n + 27). 
Se b < Ig nn, para qualquer valor de r < b, temos que (n + 27) = Q(n). Assim, escolher r = b produz um tempo de 
execução (b/b)(n + 2b) = Q(n), que é assintoticamente ótimo. Se b > lg n, escolher 7 = lg n dá o melhor tempo dentro 
de um fator constante, que podemos ver da seguinte maneira: escolher 7 = lg n produz um tempo de execução Q(bn/ lg 
n). À medida que aumentamos 7 acima de lg n, o termo 2r no numerador aumenta mais rapidamente que o termo 7 no 
denominador e, assim, aumentar r acima de lg n resulta em um tempo de execução (bn/lg n). Se, em vez disso, 
diminuirmos r abaixo de lg n, o termo b/r aumentará e o termo n + 2r permanecerá em Q(n). 

A ordenação digital é preferível a um algoritmo de ordenação baseado em comparação, como o quicksort? Se b = 
O(lg n), como é frequentemente o caso, e escolhemos r = lg n, o tempo de execução de ordenação digital será Q(n), 


que parece ser melhor que o tempo de execução esperado do quicksort, Q(n lg n). Porém, os fatores constantes 
ocultos na notação Q são diferentes. Embora a ordenação digital possa executar menos passagens que o quicksort 
sobre as n chaves, cada passagem da ordenação digital pode tomar um tempo significativamente maior. Determinar qual 
algoritmo preferimos depende das características das implementações, da máquina subjacente (por exemplo, muitas 
vezes, o quicksort utiliza caches de hardware mais eficientemente que a ordenação digital) e dos dados de entrada. 
Além disso, a versão de ordenação digital que utiliza a ordenação por contagem como ordenação estável intermediária 
não ordena no lugar, o que muitas das ordenações por comparação de tempo Q(n lg n) fazem. Assim, quando o 
armazenamento de memória primária é escasso, podemos preferir uma algoritmo de ordenação no lugar como o 
quicksort. 


Exercícios 


8.3-1 Usando a Figura 8.3 como modelo, ilustre a operação de Radix-Sort sobre a seguinte lista de palavras em 
inglês: COW, DOG, SEA, RUG, ROW, MOB, BOX, TAB, BAR, EAR, TAR, DIG, BIG, TEA, NOW, 
FOX. 


8.3-2 Quais dos seguintes algoritmos de ordenação são estáveis: ordenação por inserção, ordenação por 
intercalação, ordenação por heap e quicksort? Forneça um esquema simples que torne estável qualquer 
algoritmo de ordenação. Quanto tempo e espaço adicional seu esquema requer? 


8.3-3 Use indução para provar que a ordenação digital funciona. Onde sua prova precisa adotar a premissa de que 
a ordenação intermediária é estável? 


8.3-4 Mostre como ordenar n inteiros na faixa de O a n, — 1 no tempo O(n). 


8.3-5  * No primeiro algoritmo de ordenação de cartões desta seção, exatamente quantas passagens de ordenação 
são necessárias para ordenar números decimais de d dígitos no pior caso? Quantas pilhas de cartões um 
operador precisa controlar no pior caso? 


8.4 (ORDENAÇÃO POR BALDE 


A ordenação por balde (bucketsort) supõe que a entrada é retirada de uma distribuição uniforme e tem tempo de 
execução do caso médio de O(n). Como a ordenação por contagem, a ordenação por balde é rápida porque admite 
alguma coisa em relação à entrada. Enquanto a ordenação por contagem considera que a entrada consiste em inteiros 
contidos em uma pequena faixa, a ordenação por balde admite que a entrada é gerada por um processo aleatório que 
distribui elementos de um modo uniforme e independente no intervalo [0, 1) (veja na Seção C.2 uma definição de 
distribuição uniforme). 

A ordenação por balde divide o intervalo [0, 1) em n subnntervalos de tamanhos iguais, ou baldes, e depois 
distribui os n números de entrada entre os baldes. Visto que as entradas são distribuídas de modo uniforme e 
independente por [0, 1), não esperamos que muitos números caiam em cada balde. Para produzir a saída, simplesmente 
ordenamos os números em cada balde e depois percorremos os baldes em ordem, anotando os elementos contidos em 
cada um. 

Nosso código para ordenação por balde considera que a entrada é um arranjo de n elementos 4 e que cada 
elemento A[i] no arranjo satisfaz O < A[i] < 1. O código exige um arranjo auxiliar B[O .. n — 1] de listas ligadas (baldes) 
e considera que existe um mecanismo para manter tais listas (a Seção 10.2 descreve como implementar operações 
básicas para listas ligadas). 


BuckET-SORT(A) 
seja B[0...n — 1] um novo arranjo 
n = A-comprimento 
fori=0Oton —1 
faça B[i] uma lista vazia 
fori=1 ton 
insira A[i] na lista B[ln A[i]]] 
fori=0Oton -—1 
ordene a lista B[i] com ordenação por inserção 
concatene as listas B[0], B[1],..., BIn — 1] em ordem 


[o o E Do O; O DS 


NO 


A Figura 8.4 mostra a operação de ordenação por balde para um arranjo de entrada de 10 números. 

Para ver que esse algoritmo funciona, considere dois elementos A[i] e 4[7]. Admita, sem perda de generalidade, 
que A[i] < Al]. Visto que n4[i | <nA4l; |, o elemento A[i] é inserido no mesmo balde que A4[;] ou em um balde 
com índice mais baixo. Se A[i] e 4[;] entrarem no mesmo balde, o laço for das linhas 7-8 os colocará na ordem 
adequada. Se Ali] e A4[;] entrarem em baldes diferentes, a linha 9 os colocará na ordem adequada. Portanto, a 
ordenação por balde funciona corretamente. 

Para analisar o tempo de execução, observe que todas as linhas exceto a linha 8 demoram o tempo O(n) no pior 
caso. Precisamos analisar o tempo total tomado pelas n chamadas à ordenação por inserção na linha 8. 


B 


O 


Lo NY 


hn BB 


O o o a 


(a) (b) 


Figura 8.4 Operação de BuCker-Sorr para n = 10. (a) Arranjo de entrada 41... 10. (b) Arranjo BO ..9 de listas ordenadas (baldes) após a 
linha 8 do algoritmo. O balde i contém valores no intervalo semi-aberto 1/10, (i + 1)/10). A saída ordenada consiste em uma concatenação 
ordenada das listas BO, B1,..., B9. 


Para analisar o custo das chamadas à ordenação por inserção, seja n, a variável aleatória que denota o número de 


elementos inseridos no balde B[i]. Visto que a ordenação por inserção funciona em tempo quadrático (veja Seção 2.2), 
o tempo de execução de ordenação por balde é 


n—1 


T(n) = O(n) + D,0(n)) 


Analisaremos agora o tempo de execução do caso médio da ordenação por balde calculando o valor esperado do 


tempo de execução e considerando a esperança para a distribuição da entrada. Considerando esperança de ambos os 
lados e usando a linearidade de esperança, temos 


ElT(n)]= jeto - Sou) 


n—1 


= O(n) + bo E[O(n?)] (por linearidade de esperança) 


i=0 


n—l 
= O(n) +> O(Eln;)) (pela equação (C.22)) (8.1) 
Afirmamos que 


Eln/]=2-1/n (8.2) 


para i=0,1,...,n — 1. Não é nenhuma surpresa que cada balde i tenha o mesmo valor de E[n2 ], já que cada valor no 


arranjo de entrada 4 tem igual probabilidade de cair em qualquer balde. Para provar a equação (8.2), definimos 
variáveis aleatórias indicadoras 


X; = ItA[/] caino balde 1) 
parai=0,1,..,n-lej=1,2,...,n. Assim 


n 
= ) a 
| 1] 
j=i 


Para calcular E[n2 |] expandimos o quadrado e reagrupamos termos: 


Eli 1=E x] 
-E Exa 


j=1 I<j<n I<k<n 
br 


=5 EXE D SEXx) 


Isj<n Isk<j 


E (8.3) 


onde a última linha decorre por linearidade de expectativa. Avaliamos os dois somatórios separadamente. A variável 
aleatória mdicadora X, é 1 com probabilidade 1/n e O em caso contrário e, portanto, 


par Leo [12 
A n n 


Quando k + j, as variáveis X, e X, são independentes e, por conseguinte, 


EIX,X,]=EIX JEIX,] 


Substituindo esses dois valores esperados na equação (8.3), obtemos 


EmI=D+D D- 


a 
in o axj<ni<k<anN 
k=xj 


1 1 
= fjeepáliio | 
n n 
n 


sã, 
n 


o que prova a equação (8.2). 

Usando esse valor esperado na equação (8.1), concluímos que o tempo do caso médio para ordenação por balde 
é Q(n) +n : OQ — 1/n) = Q(n). 

Mesmo que a entrada não seja retirada de uma distribuição uniforme, a ordenação por balde ammda pode ser 
executada em tempo linear. Desde que a entrada tenha a propriedade da soma dos quadrados dos tamanhos de baldes 
linear no número total de elementos, a equação (8.1) nos diz que a ordenação por balde funcionará em tempo linear. 


Exercícios 


8.4-1 Usando a Figura 8.4 como modelo, ilustre a operação de Bucket-Sort no arranjo 4 = (0,79, 0,13, 0,16, 
0,64, 0,39, 0,20, 0,89, 0,53, 0,71, 0,42). 


8.4-2 Explique por que o tempo de execução do pior caso para a ordenação por balde é Q(n,). Qual é a alteração 
simples no algoritmo que preserva seu tempo de execução linear do caso médio e torna seu tempo de 
execução do pior caso iguala O(n lg n)? 


8.4-3 


8.4-4 


8.4-5 


Seja X uma variável aleatória igual ao número de caras em dois lançamentos de uma moeda não viciada. Qual 
é ELX,]? Qual é E2Z[X]? 


* Temos n pontos no círculo unitário, p, = (x, Y), talque0<x,+y, <1 parai=1,2,...,n. 


Suponha que os pontos estejam uniformemente distribuídos; isto é, a probabilidade de encontrar um ponto em 
qualquer região do círculo é proporcional à área dessa região. Projete um algoritmo com tempo de execução 
do caso médio de Q(n) para ordenar os n pontos por suas distâncias d, = Vx2, + y2?, em relação à origem. 
(Sugestão: Projete os tamanhos dos baldes em Bucket-Sort para refletir a distribuição uniforme dos pontos 
no círculo unitário.) 


* Uma função de distribuição de probabilidade P(x) para uma variável aleatória X é definida por P(x) = 
PriX < xj. Suponha que retiremos uma lista de n variáveis aleatórias X,, X,, ..., X, de uma função de 
distribuição de probabilidade contínua P que pode ser calculada no tempo O(1). Apresente um algoritmo que 
ordene esses números em tempo linear do caso médio. 


Problemas 
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Limites inferiores probabilísticos para ordenação por comparação 


Neste problema, provamos um limite inferior (n lg n) para o tempo de execução para qualquer ordenação por 
comparação determmnística ou aleatória de n elementos de entrada distintos. Começamos examinando uma 
ordenação por comparação determinística 4 com árvore de decisão T,. Supomos que toda permutação de 
entradas de 4 é igualmente provável. 


a. Suponha que cada folha de 7; seja rotulada com a probabilidade de ser atingida dada uma entrada 
aleatória. Prove que exatamente n! folhas são rotuladas por 1/n! e que as restantes são rotuladas por 0. 


b. Denotamos por D(T) o comprimento do caminho externo de uma árvore de decisão T, isto é, (T) é à 
soma das profundidades de todas as folhas de T. Seja T uma árvore de decisão com k > 1 folhas, e 
sejam RT e LT as subárvores direita e esquerda de T. Mostre que D(T) = D(LT) + D(RT) + k. 


c. Seja d(k) o valor mínimo de D(T) para todas as árvores de decisão T com k > 1 folhas. Mostre que d(k) 
= min<<e1 (d(i) + d(k - 7) + kJ. (Sugestão: Considere uma árvore de decisão T com k folhas que atinja 
o mínimo. Seja io o número de folhas em LT e k — i, o número de folhas em RT.) 


d. Prove que, para um dado valor dek > 1 cina faixa | <i<k-1,a função ilei+ (k — i) lg(k — 1) é 
minimizada em i = k /2. Conclua que d(k) = (k lg k). 


e. Prove que D(Ta) = (n! lg(n!)) e conclua que o tempo do caso médio para ordenar n elementos é (n lg nn). 


Agora, considere uma ordenação por comparação aleatorizada B. Podemos estender o modelo de árvore de 
decisão para tratar a aleatoriedade incorporando dois tipos de nós: os nós de comparação comuns e os nós 
de “aleatorização”. Um nó de aleatorização modela uma escolha aleatória da forma Random(1, r) feita pelo 
algoritmo B; o nó tem 7 filhos, cada um com igual probabilidade de ser escolhido durante uma execução do 
algoritmo. 


fi Mostre que, para qualquer ordenação por comparação aleatorizada B, existe uma ordenação por 
comparação determinística 4 cujo número de comparações não é maior do que as feitas por B. 
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Ordenação no lugar em tempo linear 


Suponha que temos um arranjo de n registros de dados para ordenar e que a chave de cada registro tem o 
valor O ou 1. Um algoritmo para ordenar tal conjunto de registros poderia ter algum subconjunto das três 
características desejáveis a seguir: 


1. 


A 


O algoritmo é executado no tempo O(n). 
O algoritmo é estável. 


O algoritmo ordena no lugar utilizando não mais que uma quantidade constante de espaço de 
armazenamento além do arranjo original. 


Dê um algoritmo que satisfaça os critérios 1 e 2. 
Dê um algoritmo que satisfaça os critérios 1 e 3. 
Dê um algoritmo que satisfaça os critérios 2 e 3. 


Você pode usar qualquer de seus algoritmos de ordenação dados nas partes (a)-(c) como o método de 
ordenação utilizado na linha 2 de Radix-Sort de modo que Radix-Sort ordene n registros com chaves de b 
bits no tempo O(bn)? Justifique sua resposta. 


Suponha que os n registros tenham chaves na faixa de 1 a k. Mostre como modificar a ordenação por 
contagem de modo que ela ordene os registros no lugar no tempo O(n + k). Você pode usar 
armazenamento O(k) fora do arranjo de entrada. Seu algoritmo é estável? (Sugestão: Como você faria 
isso para k = 37) 


Ordenação de itens de comprimento variável 


a. 


Você tem um arranjo de inteiros no qual inteiros diferentes podem ter números de dígitos diferentes, mas 
o número total de dígitos para todos os inteiros no arranjo é n. Mostre como ordenar o arranjo no tempo 
O(n). 


Você tem um arranjo de cadeias no qual cadeias diferentes podem ter números de caracteres diferentes, 
mas o número total de caracteres para todas as cadeias é n. Mostre como ordenar as cadeias no tempo 
O(n). 


(Observe que a ordem desejada aqui é a ordem alfabética padrão; por exemplo, a < ab < b.) 


Jarros de água 


Suponha que você tem n jarros de água vermelhos e n jarros azuis, todos de formas e tamanhos diferentes. 
Todos os jarros vermelhos contêm quantidades diferentes de água, assim como os jarros azuis. Além disso, 
para todo jarro vermelho existe um jarro azul que contém a mesma quantidade de água e vice-versa. 


Sua tarefa é determinar um agrupamento dos jarros em pares de jarros vermelhos e azuis que contenham a 
mesma quantidade de água. Para tal, você pode executar a seguinte operação: escolha um par de jarros 
formado por um jarro vermelho e um jarro azul, encha o jarro vermelho com água e depois despeje a água no 
jarro azul. Essa operação informará se o jarro vermelho ou o jarro azul pode conter mais água ou que eles têm 
o mesmo volume. Considere que tal comparação demora uma unidade de tempo. Seu objetivo é encontrar um 
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algoritmo que faça um número mínimo de comparações para determinar o agrupamento. Lembre-se de que 
você não pode comparar diretamente dois jarros vermelhos ou dois jarros azuis. 


a. Descreva um algoritmo determmístico que use Q(n2) comparações para agrupar os jarros em pares. 


b. Prove um limite inferior de (n lg n) para o número de comparações que deve efetuar um algoritmo que 
resolve esse problema 


d. Dê um algoritmo aleatorizado cujo número esperado de comparações é O(n lg n) e prove que esse limite 
é correto. Qual é o número de comparações do pior caso de seu algoritmo? 


Ordenação por média 


Suponha que, em vez de ordenar um arranjo, queremos simplesmente que os elementos aumentem na média. 
Mais exatamente, dizemos que o arranjo de n elementos 4 é k-ordenado se, para todo i=1,2,..,n-k,a 
seguinte desigualdade é válida: 


itk— p itk ; 
E dA EA 
k k 


a. O que significa um arranjo ser 1-ordenado? 
b. Dê uma permutação dos números 1, 2, ..., 10 que seja 2-ordenada, mas não ordenada. 


c. Prove que um arranjo de n elementos é k-ordenado se e somente se 4i< Ai+k paratodoi=1,2,...,n 
—k. 


d. Dê umalgoritmo que execute uma k-ordenação de um arranjo de n elementos no tempo O(n lg(n/k)). 


Também podemos mostrar um limite mferior para o tempo para produzir um arranjo k-ordenado quando 
k é uma constante. 


e. Mostre que podemos ordenar um arranjo k-ordenado de comprimento n no tempo O(n lg k). (Sugestão: 
Use a solução do Exercício 6.5-9.) 


fi Mostre que, quando k é uma constante, executar uma k-ordenação em um arranjo de n elementos requer 
o tempo (n lg n). (Sugestão: Use a solução para a parte e juntamente com o limite inferior para 
ordenações por comparação.) 


Limite inferior para a intercalação de listas ordenadas 


O problema de intercalar duas listas ordenadas surge com frequência. Vimos um procedimento para tal 
problema na forma da sub-rotina de Merge na Seção 2.31. Neste problema, mostraremos que existe um limite 
inferior 2n — 1 para o número de comparações do pior caso exigidas para intercalar duas listas ordenadas, 
cada uma contendo n itens. Primeiro, mostraremos um limite inferior de 2n — o(n) comparações usando uma 
árvore de decisão. 


a. Dados 2n números, calcule o número de modos possíveis de dividi-los em duas listas ordenadas, cada 
uma com n números. 


b. Usando uma árvore de decisão e sua resposta à parte (a), mostre que qualquer algoritmo que intercale 
corretamente duas listas ordenadas deve executar pelo menos 2n — o(n) comparações. 


Agora, mostraremos um limite ligeiramente mais restrito 2n — 1. 


c. Mostre que, se dois elementos são consecutivos na sequência ordenada e vêm de listas diferentes, eles 
devem ser comparados. 


d. Use sua resposta à parte anterior para mostrar um limite inferior de 2n - 1 comparações para intercalar 
duas listas ordenadas. 


O lema de ordenação 0-1 e ordenação por coluna 


Uma operação de comparação e troca para dois arranjos de elementos A[i] e A[;], onde i<j, tema forma 


ComraRrE-ExCHANGE (A, 1, /) 
1 if Ali] > Ali] 


2 


exchange Ali] with Al[;] 
Após a operação de comparação e troca, sabemos que A[i] A[;]. 


Um algoritmo de comparação e troca inconsciente funciona exclusivamente por uma sequência de 
operações pré-especificadas de comparação e troca. Os índices das posições comparadas na sequência 
devem ser determinados com antecedência e, embora possam depender do número de elementos que estão 
sendo ordenados, não podem depender dos valores que estão sendo ordenados nem do resultado de 
qualquer operação anterior de comparação e troca. Por exemplo, apresentamos a seguir, a ordenação por 
inserção expressa como um algoritmo de comparação e troca inconsciente: 


INSERTION-SORT(A) 
1 forj=2to A-comprimento 


2 
E 


fori=; — 1 downto 1 
CompaRrE-ExcHANGE(A, 1,1 + 1) 


O lema de ordenação 0-1 nos dá um modo poderoso de provar que um algoritmo de comparação e troca 
inconsciente produz um resultado ordenado. O lema declara que, se um algoritmo de comparação e troca 
inconsciente ordenar corretamente todas as sequências de entrada compostas somente por Os e Is, então 
ordenará corretamente todas as entradas que contenham valores arbitrários. 


Você provará o lema de ordenação 0-1 provando seu contraposto: se um algoritmo de comparação e troca 
inconsciente não ordenar uma entrada que contenha valores arbitrários, então não ordenará alguma entrada 0- 
1. Suponha que um algoritmo de comparação e troca inconsciente X não ordena corretamente o arranjo 4[1 
... n]. Seja A[p] o menor valor em 4 que o algoritmo X coloca na posição errada e seja 4[9] o valor que o 
algoritmo X desloca até a posição para a qual 4[p] deveria ter ido. Defina um arranjo B[1 .. n] de Os e Is da 
seguinte maneira: 


et Afi]< Alpl, 
1 se Afi]> Afp). 
a. Demonstre que 4q > 4p, de modo que Bp = 0 e Bg = 1. 


b. Para concluir a prova do lema de ordenação 0-1, prove que o algoritmo X não ordena o arranjo B 
corretamente. 


Agora usaremos o lema de ordenação 0-1 para provar que um determinado algoritmo de ordenação funciona 
corretamente. O algoritmo de ordenação por coluna (columnsort) funciona sobre um arranjo retangular de 
n elementos. O arranjo tem linhas e s colunas (de modo que n = rs) e está sujeito a três restrições: 


* rdeveser par, 


e s deve ser um divisor de 7 é 
RR ga 


Quando o algoritmo de ordenação por coluna termina, o arranjo está ordenado por ordem de coluna: lendo- 
se as colunas de cima para baixo e da esquerda para a direita, os elementos crescem monotonicamente. 


A ordenação por coluna funciona em oito etapas, independentemente do valor de n. As etapas ímpares são 
todas iguais: ordenam cada coluna individualmente. Cada etapa par é uma permutação fixa. As etapas são: 


1. Ordenar cada coluna. 


2. Transpor o arranjo e modelar novamente o arranjo em » linhas e s colunas. Em outras palavras, 
transformar a coluna da extrema esquerda nas 7/s linhas superiores, em ordem, transformar a coluna 
seguinte nas 7/s linhas seguintes em ordem, e assim por diante. 


3. Ordenar cada coluna. 
4. Executar o inverso da permutação efetuada na etapa 2. 
5. Ordenar cada coluna. 


6. Deslocar a metade superior de cada coluna para a metade inferior da mesma coluna e deslocar a metade 
inferior de cada coluna para a metade superior da próxima coluna à direita. Deixar vazia a metade 
superior da coluna da extrema esquerda. Deslocar a metade inferior da última coluna para a metade 
superior de uma nova coluna na extrema direita e deixar vazia a metade inferior dessa nova coluna. 


7. Ordenar cada coluna. 
8. Executar o inverso da permutação efetuada na etapa 6. 


A Figura 8.5 mostra um exemplo das etapas da ordenação por coluna com r = 6 e s = 3. (Ainda que viole o 
requisito de r > 2s,, esse exemplo funciona.) 


c. Demonstre que podemos tratar a ordenação por coluna como um algoritmo de comparação e troca 
inconsciente, mesmo que não saibamos qual método de ordenação as etapas ímpares utilizam. 


Embora possa parecer difícil acreditar que a ordenação por coluna realmente funciona, você usará o lema da 
ordenação 0-1 para provar que isso ocorre. O lema de ordenação 0-1 se aplica porque podemos tratar a 
ordenação por coluna como um algoritmo de comparação e troca inconsciente. Algumas definições o 
ajudarão a aplicar o lema de ordenação 0-1. Dizemos que uma área de um arranjo é limpa se soubermos que 
ela contém só Os ou só Is. Caso contrário, a área poderá conter uma mistura de Os e Is e é suja. Daqui em 
diante, considere que o arranjo de entrada contém somente Os e Is, e que podemos tratá-lo como um arranjo 
comr linhas e s colunas. 


| 


10 14 5 4 1 2 4 8 10 1 3 6 1 4 11 
8 17 o 3 5 12 16 18 2 o 3 8 14 
2 1 6 10 7 6 0, 4 8 10 o 10 7 
16 11 iz 9 U 9 14 15 2 4 E 2 9 
4 15 2 16 14 13 2 dd 6 1 14 17 > 13 16 
18 3 13 IS 15 172 4d 13 17 12 16 18 7 15 18 
(a) (b) (c) (d) (e) 
1 4 11 5 10 16 4 10 16 1 7 B 
.» & o 15 dd? o dl 2 8 14 
S 9 HW 2 5 18 6 12 18 3 9 15 
5 10 16 1 4 11 1 78 4 10 16 
6 13 17 8 12 8 14 » HH Ny 
7 45 48 3 9 14 : 4 BD 6 12 18 
(8) (g) (h) (1) 


Figura 8.5 Etapas da ordenação por coluna. (a) O arranjo de entrada com 6 linhas e 3 colunas. (b) Após ordenar cada coluna na etapa 1. 
(c) Após transpor e remodelar na etapa 2. (d) Após ordenar cada coluna na etapa 3. (e) Após executar a etapa 4, que inverte a 
permutação da etapa 2. (f) Após ordenar cada coluna na etapa 5. (g) Após deslocar meia coluna na etapa 6. (h) Após ordenar cada 
coluna na etapa 7. (i) Após executar a etapa 8, que inverte a permutação da etapa 6. Agora o arranjo está ordenado por coluna. 


d. Prove que, após as etapas 1-3, o arranjo consiste em algumas linhas limpas de Os na parte superior, 
algumas linhas de 1s na parte inferior e, no máximo, s linhas sujas entre elas. 


e. Prove que, após a etapa 4, o arranjo, lido em ordem orientada por coluna, começa com uma área limpa 
de Os, termina com uma área limpa de Is e tem uma área suja de, no máximo, s> elementos no meio. 


fi Prove que as etapas 5-8 produzem uma saída 0-1 totalmente ordenada. Conclua que a ordenação por 
coluna ordena corretamente todas as entradas que contêm valores arbitrários. 


g. Agora suponha que s não seja divisor de r. Prove que, após as etapas 1 - 3, o arranjo consiste em 
algumas linhas limpas de Os na parte superior, algumas linhas limpas de 1s na parte inferior e, no máximo, 
2s — 1 linhas sujas entre elas. Qual deverá ser o tamanho de r, em comparação com s, para que a 
ordenação por coluna ordene corretamente quando s não for um divisor de 7? 


h. Sugira uma mudança simples na etapa 1 que nos permita manter o requisito de yr > 2s2 mesmo quando s 
não é um divisor de r, e prove que, com tal mudança, a ordenação por coluna ordena corretamente. 


NorTas DO CAPÍTULO 


O modelo de árvore de decisão para o estudo de ordenações por comparação foi introduzido por Ford e Johnson 
[110]. O tratado abrangente de Knuth sobre a ordenação [211] aborda muitas variações do problema da ordenação, 
inclusive o limite inferior da Teoria da Informação sobre a complexidade da ordenação que demos neste livro. Ben-Or 
[39] estudou limites inferiores para ordenação utilizando generalizações do modelo de árvore de decisão. 

Knuth credita a H. H. Seward a criação da ordenação por contagem, em 1954, e também a ideia de combinar a 
ordenação por contagem com a ordenação digital A ordenação digital que começa pelo dígito menos significativo 
parece ser um algoritmo popular amplamente utilizado por operadores de máquinas mecânicas de ordenação de 


cartões. De acordo com Knuth, a primeira referência ao método publicada é um documento de 1929 escrito por L. J. 
Conrie que descreve o equipamento de perfuração de cartões. A ordenação por balde está em uso desde 1956, 
quando a ideia básica foi proposta por E. J. Isaac e R. C. Singleton [188]. 

Munro e Raman [263] apresentam um algoritmo de ordenação estável que executa O(n,+) comparações no pior 
caso, onde O < < 1 é qualquer constante fixa. Embora qualquer dos algoritmos de tempo O(n lg n) efetue um número 
menor de comparações, o algoritmo de Munro e Raman move os dados apenas O(n) vezes e opera no lugar. 

O caso da ordenação de n inteiros de b bits no tempo o(n lg n) foi considerado por muitos pesquisadores. Vários 
resultados positivos foram obtidos, cada um sob premissas um pouco diferentes sobre o modelo de computação e as 
restrições impostas ao algoritmo. Todos os resultados supuseram que a memória do computador está dividida em 
palavras endereçáveis de b bits. Fredman e Willard [115] introduziram a estrutura de dados de árvores de fusão e a 
empregaram para ordenar n inteiros no tempo O(n lg n/lg Jg n). Esse limite foi aperfeiçoado mais tarde para o tempo 
O(nvlgn) por Andersson [16]. Esses algoritmos exigem o uso de multiplicação e de várias constantes pré-calculadas. 
Andersson, Hagerup, Nilsson e Raman [17] mostraram como ordenar n inteiros no tempo O(n lg lg n) sem usar 
multiplicação, mas seu método exige espaço de armazenamento que pode ser ilimitado em termos de n. Utilizando 
hashing multiplicativo, podemos reduzir o espaço de armazenamento necessário para O(n), mas então o limite O(n lg lg 
n) do pior caso para o tempo de execução se torna um limite de tempo esperado. Generalizando as árvores de busca 
exponencial de Andersson [16], Thorup [335] apresentou um algoritmo de ordenação de tempo O(n(lg lg n)2) que não 
usa multiplicação ou aleatorização e utiliza espaço linear. Combinando essas técnicas com algumas ideias novas, Han 
[158] melhorou o limite para ordenação até o tempo O(n lg lg nn lg Tg lg n). Embora esses algoritmos sejam inovações 
teóricas importantes, todos eles são razoavelmente complicados e, até o presente momento, parece improvável que 
venham a competir na prática com algoritmos de ordenação existentes. 

O algoritmo de ordenação por coluna no Problema 8-7 é de Leighton [227]. 


MEEDIANAS E ESTATÍSTICAS DE ORDEM 


A i-ésima estatística de ordem de um conjunto de n elementos é o i-ésimo menor elemento. Por exemplo, o 
mínimo de um conjunto de elementos é a primeira estatística de ordem (i = 1), e o máximo é a n-ésima estatística de 
ordem (i = n). Informalmente, uma mediana é o “ponto do meio” do conjunto. Quando n é ímpar, a mediana é única e 
ocorre em i = (n + 1)/2. Quando n é par, existem duas medianas, que ocorrememi=n/2 ei=n/2+ 1. Assim, 
independentemente da paridade de n, as medianas ocorrem em i = (n + 1)/2 (a mediana inferior) ei=(n + 1)2 (a 
mediana superior). Todavia, por simplicidade, neste texto usaremos sempre a expressão “mediana” para nos 
referirmos à mediana inferior. 

Este capítulo aborda o problema de selecionar a i-ésima estatística de ordem de um conjunto de n números 
distintos. Por conveniência, supomos que o conjunto contém números distintos, embora praticamente tudo que fizermos 
se estenda à situação na qual um conjunto contém valores repetidos. Especificamos o problema de seleção 
formalmente do seguinte modo: 


Entrada: Um conjunto 4 de n números (distintos) e um inteiro i, com Il <i<n. 


Saída: O elemento x E 4, que é maior que exatamente i — 1 outros elementos de 4. Podemos resolver o 
problema de seleção no tempo O(n lg n), já que podemos ordenar os números usando ordenação por heap ou 
por intercalação e, então, simplesmente indexar o i-ésimo elemento no arranjo de saída. Contudo, existem 
algoritmos mais rápidos. 


Na Seção 9.1, examinamos o problema de selecionar o mínimo e o máximo de um conjunto de elementos. Mais 
interessante é o problema de seleção geral, que investigamos nas duas seções subsequentes. A Seção 9.2 analisa um 
algoritmo aleatorizado prático que alcança um tempo de execução esperado O(n) considerando elementos distintos. A 
Seção 9.3 contém um algoritmo de interesse mais teórico, que alcança o tempo de execução O(n) no pior caso. 


9.1 Mínimo E MÁXIMO 


Quantas comparações são necessárias para determinar o mínimo de um conjunto de n elementos? Podemos obter 
facilmente um limite superior de n — 1 comparações: examine cada elemento do conjunto por vez e mantenha o controle 
do menor elemento visto até então. No procedimento a seguir, consideramos que o conjunto reside no arranjo 4, onde 
A: comprimento = n. 


MINIMUM(A) 

1 min = A[1] 

2 fori=2 to A-comprimento 
3  ifmin> Afil 

4 min = Ali] 

5 return min 


É claro que também podemos determinar o máximo comn — 1 comparações. 

Isso é o melhor que podemos fazer? Sim, desde que possamos obter um limite mferior de n — 1 comparações para 
o problema de determinar o mínimo. Imagine qualquer algoritmo que determine o mínimo como um torneio entre os 
elementos. Cada comparação é uma partida no torneio, na qual o menor dos dois elementos vence. Observando que 
todo elemento, exceto o vencedor, deve perder pelo menos uma partida, concluímos que são necessárias n — 1 
comparações para determinar o mínimo. Por consequência, o algoritmo Minimum é ótimo com relação ao número de 
comparações executadas. 


Mínimo e máximo simultâneos 


Em algumas aplicações, devemos determinar o mínimo e também o máximo de um conjunto de n elementos. Por 
exemplo, um programa gráfico talvez tenha de ajustar a escala de um conjunto de (x, ) dados para enquadrá-lo em 
uma tela de exibição retangular ou em outro dispositivo de saída gráfica. Para tal, o programa deve primeiro determinar 
os valores mínimo e máximo de cada coordenada. 

Nesta altura, o procedimento para determinar o mínimo e o máximo de n elementos usando Q(n) comparações, 
que é o número assintoticamente ótimo, deve ser óbvio: simplesmente determine o mínimo e o máximo 
independentemente, usando n — 1 comparações para cada um deles, o que dá um total de 2n — 2 comparações. 

De fato, podemos determinar ambos, mínimo e máximo, usando no máximo 3 n/2 comparações. Para tal, 
mantemos os elementos mínimo e máximo que vimos até o momento em questão. Em vez de processar cada elemento 
da entrada comparando-o com o mínimo e o máximo atuais, ao custo de duas comparações por elemento, 
processamos elementos aos pares. Comparamos pares de elementos da entrada primeiro uns com os outros e, depois, 
comparamos o menor com o mínimo atual e o maior com o máximo atual, ao custo de três comparações para cada dois 
elementos. 

A definição de valores iniciais para o mínimo e o máximo atuais depende de n ser ímpar ou par. Se n é ímpar, 
igualamos o mínimo e o máximo ao valor do primeiro elemento e processamos os elementos restantes aos pares. Se n é 
par, executamos uma comparação sobre os dois primeiros elementos para determinar os valores iniciais do mínimo e do 
máximo, e processamos os elementos restantes aos pares, como no caso de n ímpar. 

Vamos analisar o número total de comparações. Se n é ímpar, executamos 3 n/2 comparações. Se n é par, 
executamos uma comparação inicial seguida por 3(n — 2)/2 comparações, dando um total de 31n/2 — 2. Assim, em 
qualquer caso, o número total de comparações é, no máximo, 3 n/2. 


Exercícios 


9.1-1 Mostre que o segundo menor entre n elementos pode ser determinado com n + lg n — 2 comparações no pior 
caso. (Sugestão: Determine também o menor elemento.) 


9.12 x 


Mostre que, no pior caso, 3n/2 — 2 comparações é o limite inferior para determinar o máximo e o mínimo 
entre n números. (Sugestão: Considere quantos números são potencialmente o máximo ou o mínimo e 
investigue como uma comparação afeta essas contagens.) 


9.2 SELEÇÃO EM TEMPO LINEAR ESPERADO 


O problema de seleção geral parece mais difícil que o problema simples de determinar um mínimo, ainda que 
surpreendentemente o tempo de execução assintótico para ambos os problemas seja o mesmo: Q(n). Nesta seção, 
apresentamos um algoritmo de divisão e conquista para o problema de seleção. O algoritmo Ranpomize-SeLEcT É 
modelado conforme o algoritmo quicksort do Capítulo 7. Como no quicksort, particionamos o arranjo de entrada 
recursivamente. Porém, ao contrário do quicksort, que processa recursivamente ambos os lados da partição, 
RanDomizep-SeLECT funciona somente de um lado da partição. Essa diferença se destaca na análise: enquanto o quicksort 
tem um tempo de execução esperado Q(n lg n), o tempo de execução esperado de Ranpomizep-Serecr é Q(n), supondo 
que os elementos são distintos. 

O Ranpomizep-SeLecrutilza o procedimento Ranpomizen-Parririon introduzido na Seção 7.3. Portanto, como o 
RAanpoMizeD-Quicksorr, ele é um algoritmo aleatorizado, já que seu comportamento é determinado em parte pela saída de 
um gerador de números aleatórios. O código para Ranpomep-SeLecr apresentado a seguir retorna o i-ésimo menor 
elemento do arranjo A[p .. 7]. 


RANDOMIZED-SELECT(A, p, r,1) 

1 p= 

2 return A[p] 

3 q = RANDOMIZED-PARTITION(A, p, 1) 
4k=q-p+1 

5 Hi==k // O valor pivô é a resposta 

6 return A[q] 

7 elseifi<k 

8 return RANDOMIZED-SELECT(A, p, q — 1,i) 

9 else return RANDOMIZED-SELECT(A, q + 1,r,i— k) 


O procedimento Ranvomizep-seLecr funciona da seguinte maneira: a linha 1 verifica se é um caso-base da recursão, 
no qual o subarranjo 4[p . . r] consiste em apenas um elemento. Nesse caso, i deve ser igual a 1, e simplesmente 
retornamos 4[p] na linha 2 como o i-ésimo menor elemento. Caso contrário, a chamada a Ranpomizen-Parrrrion na linha 
3 particiona o arranjo A[p . . r] em dois subarranjos A[p ..g — 1]e Alg + 1... 7] (possivelmente vazios) tais que cada 
elemento de A[p .. q — 1] é menor ou igual a 4[q], que, por sua vez, é menor que cada elemento de Alg + 1..7]. 
Como no quicksort, nos referiremos a 4[q] como o elemento pivô. A linha 4 calcula o número k de elementos no 
subarranjo A[p . . q], isto é, o número de elementos no lado baixo da partição, mais um para o elemento pivô. Então, a 
linha 5 verifica se 4[q9] é o iésimo menor elemento. Se for, a linha 6 retoma A[g]. Caso contrário, o algoritmo 
determina em qual dos dois subarranjos 4[p ..g—- 1]e Alg + 1...7] se encontra o i-ésimo menor elemento. Se i < k, o 
elemento desejado se encontra no lado baixo da partição, e a linha 8 o seleciona recursivamente no subarranjo. Porém, 
sei> k, o elemento desejado se encontra no lado alto da partição. Como já conhecemos k valores que são menores 
que o i-ésimo menor elemento de Alp .. 7] — isto é, os elementos de A[p .. q] —, o elemento desejado é o (i — k)- 
ésimo menor elemento de Alg + 1 .. r], que a linha 9 determina recursivamente. O código parece permitir chamadas 
recursivas a subarranjos com O elementos, mas o Exercício 9.2-1 pede que você mostre que essa situação não pode 
acontecer. 

O tempo de execução do pior caso para Ranvomien-SeLecr é Q(n,), até mesmo para determinar o mínimo, porque 
poderíamos ter o grande azar de sempre executar a partição em torno do maior elemento restante e o particionamento 
levar o tempo Q(n). Entretanto, veremos que o algoritmo tem um tempo de execução esperado linear e, como ele é 
aleatorizado, nenhuma entrada específica provoca o comportamento do pior caso. 

Para analisar o tempo de execução esperado de Ranvomizen-SeLecr, supomos que o tempo de execução de um 
arranjo de entrada A[p .. 7] de n elementos é uma variável aleatória que denotamos por T(n), e obtemos um limite 


superior para E[T(n)] da maneira descrita a seguir. O procedimento Ranpomizep-Partrmon tem igual probabilidade de 
retornar qualquer elemento como pivô. Portanto, para cada k tal que 1 < k <n, o subarranjo A[p .. q] tem k elementos 
(todos menores ou iguais ao pivô) com probabilidade 1/n. Para k = 1, 2, ..., n, definimos variáveis aleatórias 
indicadoras X,, onde 

X, = (o subarranjo A[p .. q] tem exatamente k elementos; , 

e, assim, considerando que os elementos são distintos, temos 


EIX] = 1/n. (9.1) 


Quando chamamos Ranpomizep-SeLecr e escolhemos 4[g9] como o elemento pivô, não sabemos a priori se 
terminaremos imediatamente com a resposta correta, se faremos a recursão no subarranjo 4[p .. q — 1] ou subarranjo 
Alg + 1... 7]. Essa decisão depende de onde o i-ésimo menor elemento cai em relação a 4[q]. Considerando que T(n) 
é monotonicamente crescente, podemos impor um limite superior ao tempo necessário para a chamada recursiva pelo 
tempo necessário para a chamada recursiva para a maior entrada possível. Em outras palavras, para obter um limite 
superior supomos que o i-ésimo elemento está sempre no lado da partição que tem o maior número de elementos. Para 
uma dada chamada de Ranpomizen-SeLecr, à variável aleatória indicadora X, tem o valor 1 para exatamente um valor de 
k, e é O para todos os outros k. Quando X, = 1, os dois subarranjos nos quais poderíamos executar a recursão têm 
tamanhos k — 1 e n — k. Consequentemente, temos a recorrência 


T(n) < 35X, (T(max(k Ln-k)+O(n)) 


dá é T(max(k—1,n—k)+O(n). 


k=1 
Tomando valores esperados, temos 


ELT(m)] 


<E 5 “T(max (k -1,n—k)+ O(n) 


k=1 


es » EX, -T(max(k —1,n—k)]+O(n) (por linearidade de esperança) 
= +. E[X,]- ElT(max(k — 1,n — k))|+ O(n) (pela equação(C.24)) 
= se E ElT(max(k —1,n—k)]+O(n) (pela equação(9.1)). 


k=1 n 


Para aplicar a equação (C.24), contamos com o fato que X, e T(max(k — 1, n — k)) são variáveis aleatórias 
independentes. O Exercício 9.2-2 pede que você justifique essa afirmação. 
Vamos considerar a expressão max(k — 1, n — k). Temos 


k-1sek>|n/2|, 


max(k — 1,n— k) = 
n—k sek<|n/2|. 


Se n é par, cada termo de T(n/2) até T(n — 1) aparece exatamente duas vezes no somatório, e, se n é ímpar, todos 
esses termos aparecem duas vezes e o termo T(n/2) aparece uma vez. Assim, temos 


ET(m]<2 So EITA O(n) 
Nk=|n/2] 


Mostramos que E[T(n)|] = O (n) por substituição. Suponha que E [7(n)] < cn para alguma constante c que satisfaça as 
condições iniciais da recorrência. Supomos T(n) = O(1) para n menor que alguma constante; escolheremos essa 
constante mais adiante. Também escolhemos uma constante a tal que a função descrita pelo termo O(n) citado (que 
descreve o componente não recursivo do tempo de execução do algoritmo) seja limitada acima por an para todo n > 0. 
Usando essa hipótese de indução, temos 


n—1 
ElT(n)] < 2 > dk+an 
A k=|n/2] 
2c n—1 In/2|-1 


ES 54 


k=1 k=1 
2ef(n=1n  (n/2]5-Dn/2) 
n 4 Z 
Z 2cj(n=Dn (n/2-2Xn/2>1) 
n És 2 
2ejn—n nº/4-3n/2+2 
n 2 2 
= [or ,n.» 
ntl4 2 


+an 


+an 


Jem 


em 


+an 


3n 1 | 
= Ep eo | pi 
4 2 nm 


Para concluir a prova, precisamos mostrar que, para n suficientemente grande, esta última expressão é no máximo cn 
ou, o que é equivalente, cn/4 — c/2 — an > 0. Se somarmos c/2 a ambos os lados e fatorarmos n, obteremos n(c/4 — a) 
> c/2. Desde que escolhamos a constante c de modo que c/4 — a > 0, isto é, c > 4a, poderemos dividir ambos os lados 
por c/4 — a, obtendo 


ais era a 


c/4-a c—4a 
Assim, se considerarmos que 7(n) = O(1) para n < 2c/(c — 4a), então E [T(n)] = O(n). Concluímos que, podemos 


determinar qualquer estatística de ordem, e em particular a mediana, em tempo linear esperado, considerando que os 
elementos são distintos. 


Exercícios 


9.2-1 Mostre que Ranpomizep-Seecr nunca faz uma chamada recursiva a um arranjo de comprimento 0. 
9.2-2 Demonstre que a variável aleatória indicadora X, e o valor T (max(k — 1, n — k)) são independentes. 
9.2-3 Escreva uma versão iterativa de RanDomieD-SeLEcCT. 


9.2-4 Suponha que usamos Ranpomizep-SeLEcr para selecionar o elemento mínimo do arranjo 4 =(3,2,9,0,7,5,4, 
8, 6, 1). Descreva uma sequência de partições que resulte em um desempenho do pior caso de Ranvomizen- 


SELECT. 


9.3 SELEÇÃO EM TEMPO LINEAR DO PIOR CASO 


Examinaremos agora um algoritmo de seleção cujo tempo de execução é O(n) no pior caso. Como Ranpomiep- 
SeLecr, O algoritmo SeLecr determina o elemento desejado particionando recursivamente o arranjo de entrada. Todavia, 
aqui garantimos uma boa divisão particionando o arranjo. SeLecrutiliza o algoritmo de particionamento determinístico 
Parrrmon do quicksort (veja a Seção 7.1), porém modificado para tomar o elemento em torno do qual é executada a 
partição como um parâmetro de entrada. 
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Figura 9.1 Análise do algoritmo SeLecr. Os n elementos são representados por pequenos círculos, e cada grupo de cinco elementos 
ocupa uma coluna. As medianas dos grupos são os círculos brancos e a mediana de medianas x é identificada. (Para determinar a 
mediana de um número par de elementos, usamos a mediana inferior.) As setas são orientadas dos elementos maiores para os menores e, 
comisso, podemos ver que três em cada grupo completo de cinco elementos à direita de x são maiores que x, e três em cada grupo de 
cinco elementos à esquerda de x são menores que x. Os elementos maiores que x são mostrados sobre um fundo sombreado. 


O algoritmo SeLecr determina o i-ésimo menor elemento de um arranjo de entrada de n > 1 elementos distintos 
executando as etapas a seguir. (Se n = 1, então SeLecr simplesmente retorna seu único valor de entrada como o i-ésimo 
menor.) 

1. Dividir os n elementos do arranjo de entrada em n/5 grupos de cinco elementos cada e no máximo um grupo 
formado pelos n mod 5 elementos restantes. 
2. Determinar a mediana de cada um dos n/5 grupos, primeiro ordenando por inserção os elementos de cada grupo 

(dos quais existem cinco, no máximo) e depois escolhendo a mediana na lista ordenada de elementos de grupos. 

3. Usar Seecrrecursivamente para definir a mediana x das n/5 medianas determinadas na etapa 2. (Se houver um 
número par de medianas, pela nossa convenção, x é a mediana inferior.) 
4. Particionar o arranjo de entrada em torno da mediana de medianas x usando a versão modificada de Parrrmon. Seja 

k um mais que o número de elementos no lado baixo da partição, de modo que x é o k-ésimo menor elemento e há 

n — k elementos no lado alto da partição. 

5. Sei=k, então retornar x. Caso contrário, usar SeLecr recursivamente para determinar o i-ésimo menor elemento 

no lado baixo se i<k ouo (i — k)-ésimo menor elemento no lado alto se i > k. 

Para analisar o tempo de execução de SeLecr, primeiro determinamos um limite inferior para o número de elementos 
que são maiores que o elemento de particionamento x. A Figura 9.1 nos ajuda a visualizar essa contabilidade. No 
mínimo, metade das medianas determinadas na etapa 2 é maior ou igual à mediana de medianas x.! Assim, no mínimo 
metade dos 1/5 grupos contribuem com no mínimo três elementos maiores que x, exceto o único grupo que tem menos 
de cinco elementos se 5 não for um divisor exato de n, e o único grupo que contém o próprio x. Descontando esses 
dois grupos, decorre que o número de elementos maiores que x é, no mínimo, 
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De modo semelhante, no mínimo 311/10 — 6 elementos são menores que x. Assim, no pior caso, a etapa 5 chama 
SELECT recursivamente para, no máximo, 7n/10 + 6 elementos. 

Agora podemos desenvolver uma recorrência para o tempo de execução do pior caso T(n) do algoritmo Seecr. 
As etapas 1, 2 e 4 demoram o tempo O(n). (A etapa 2 consiste em O(n) chamadas de ordenação por inserção para 
conjuntos de tamanho O(1).) A etapa 3 demora o tempo T(n/5), e a etapa 5 demora no máximo o tempo 7(7n/10 + 6) 
considerando que T' é monotonicamente crescente. Adotamos a seguinte premissa, que a princípio parece sem motivo: 
qualquer entrada com menos de 140 elementos requer o tempo O(1); a origem da constante mágica 140 ficará clara em 
breve. Portanto, podemos obter a recorrência 


O(1) sen < 140, 
Tlm 
T(In / 5)T(7n /10+6)+0O(n) sen>140. 


Mostramos que o tempo de execução é linear por substituição. Mais especificamente, mostraremos que T(n) < cn para 
alguma constante c adequadamente grande e para todo n > 0. Começamos supondo que T(n) < cn para alguma 
constante c adequadamente grande e para todo n < 140; essa premissa se mantém válida se c for suficientemente 
grande. Também escolhemos uma constante a tal que a função descrita pelo termo O(n) citado (que descreve o 
componente não recursivo do tempo de execução do algoritmo) é limitado acima por an para todo n > 0. Substituindo 
essa hipótese indutiva no lado direito da recorrência, obtemos 


cln/5|+c(7n/10+6)+an 
cn/5+c+7cn/10+6c+an 
9cn/10+7c+an 

cn+(—cn /10+7c+ an) 


e: 
E 
IA IA 


que é no máximo cn se 


—cn/10+7c+an<o0. (9.2) 


A desigualdade (9.2) é equivalente à desigualdade c > 10a(n/(n — 70)) quando n > 70. Como admítimos que n > 140, 
temos n/(n — 70) < 2 e, assim, escolher c > 20q satisfará a desigualdade (9.2). (Observe que não há nada de especial 
na constante 140; poderíamos substituí-la por qualquer inteiro estritamente maior que 70 e depois escolher c de 
acordo.) Então, o tempo de execução do pior caso de Serecr é linear. 

Como em uma ordenação por comparação (veja a Seção 8.1), Serecr € RanDomizep-SeLecr determinam informações 
sobre a ordem relativa de elementos somente por comparação de elementos. Vimos no Capítulo 8 que a ordenação 
exige o tempo OQ (n lg n) no modelo de comparação, mesmo na média (veja o Problema 8-1). Os algoritmos de 
ordenação de tempo linear do Capítulo 8 adotam premissas sobre a entrada. Ao contrário, os algoritmos de seleção de 
tempo linear deste capítulo não exigem nenhuma premissa sobre a entrada. Eles não estão sujeitos ao limite inferior (n 
lg n) porque conseguem resolver o problema da seleção sem ordenar. Assim, resolver o problema da seleção por 
ordenação e indexação, como apresentamos no início deste capítulo, é assintoticamente ineficiente. 


Exercícios 


9.3-1 No algoritmo Sececr, os elementos de entrada são divididos em grupos de cinco. O algoritmo funcionará em 
tempo linear se eles forem divididos em grupos de sete? Demonstre que Seecr não será executado em tempo 
linear se forem usados grupos de três elementos. 


9.3-2 Analise Serecr para mostrar que, se n > 140, então no mínimo n/4 elementos são maiores que a mediana de 
medianas x e no mínimo nn/4 elementos são menores que x. 


9.3-3 Mostre como o quicksort pode ser modificado para ser executado no tempo O(n lg n) no pior caso, 
considerando que todos os elementos são distintos. 


9.3-4  % Suponha que um algoritmo utilize somente comparações para determinar o i-ésimo menor elemento em um 
conjunto de n elementos. Mostre que ele também pode determinar os i — 1 menores elementos e os n — i 
maiores elementos sem executar quaisquer comparações adicionais. 


9.3-5 Dada uma sub-rotina “caixa-preta” para a mediana de tempo linear no pior caso, apresente um algoritmo 
simples de tempo linear que resolva o problema de seleção para uma estatística de ordem arbitrária. 


9.3-6 Os k-ésimos quantis de um conjunto de n elementos são as k — 1 estatísticas de ordem que dividem o 
conjunto ordenado em k conjuntos de igual tamanho (com aproximação de 1). Apresente um algoritmo de 
tempo O(n lg k) para dar uma lista dos k-ésimos quantis de um conjunto. 


9.3-7 Descreva um algoritmo de tempo O(n) que, dados um conjunto S de n números distintos e um inteiro positivo 
k <n, determine os k números em S que estão mais próximos da mediana de 8. 


9.3-8 


9.3-9 


Sejam X[1..n]e X1... n] dois arranjos, cada um contendo n números já em sequência ordenada. Apresente 
um algoritmo de tempo O(lg n) para determinar a mediana de todos os 2n elementos nos arranjos X e Y. 


O professor Olay é consultor de uma empresa petrolífera que está planejando um grande oleoduto de leste 
para oeste que atravessa um campo petrolífero com n poços. A empresa quer conectar um duto auxiliar entre 
cada um desses poços e o oleoduto principal ao longo de um caminho mais curto (para o norte ou para o sul), 
como mostra a Figura 9.2. Dadas as coordenadas x e y dos poços, como o professor deve escolher a 
localização ótima do oleoduto principal que minimizará o comprimento total dos dutos auxiliares? Mostre 
como determinar a localização ótima em tempo linear. 


Problemas 


9-1 


Os imaiores números em sequência ordenada 


Dado um conjunto de n números, queremos determinar os i maiores em sequência ordenada usando um 
algoritmo baseado em comparação. Descubra o algoritmo que implementa cada um dos métodos a seguir com 
o melhor tempo de execução assintótico do pior caso e analise os tempos de execução dos algoritmos em 
termos de n e i. 


Figura 9.2 O professor Olay precisa determinar a posição do oleoduto de leste para oeste que minimiza o comprimento total dos dutos 
auxiliares norte-sul. 


a. Classifique os números e produza uma lista com os i maiores. 


b. Construa uma fila de prioridade máxima com os números e chame Exrracr-Max i vezes. 


Use um algoritmo de estatística de ordem para determinar o i-ésimo maior número, particionar em torno 


c. r . . 7 
desse número e ordenar os i maiores números. 


9-2 Mediana ponderada 


Para n elementos distintos x,, x,, ..., X,, com pesos positivos w,, 4», ..., W, tais que Ei ,a 
mediana ponderada (inferior) é o elemento x* que satisfaz 
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Por exemplo, se os elementos são 0,1; 0,35; 0,05; 0,1; 0,15; 0,05; 0,2 e cada elemento é igual ao seu peso (isto é, w, 
=x, para i= 1,2,..., 7), então a mediana é 0,1, mas a mediana ponderada é 0,2. 


a. Mostre que a mediana de x,, x», ..., x, é a mediana ponderada dos x, com pesos w, = 1/n para i= 1,2, 
caso 


b. Mostre como calcular a mediana ponderada de n elementos no tempo O(n lg n) do pior caso usando 
ordenação. 


c. Mostre como calcular a mediana ponderada no tempo Q(n) do pior caso usando um algoritmo de 
mediana de tempo linear como Serecr da Seção 9.3. 


O problema da localização da agência postal é definido da seguinte maneira: temos n pontos p,, Pp», ..., P, 
com pesos associados w,, W», ..., W,. Desejamos determinar um ponto p (não necessariamente um dos pontos 


de entrada) que minimize o somatório ME w,Ap.p, ), onde d(a, b) é a distância entre os pontos a e b. 


d. Mostre que a mediana ponderada é uma solução melhor para o problema da localização de agência 
postal unidimensional, no qual os pontos são simplesmente números reais e a distância entre os pontos a e 
b é da, b) = |a — b). 


e. Determmne a melhor solução para o problema de localização da agência postal bidimensional, no qual os 
pontos são pares de coordenadas (x, y) e a distância entre os pontos a = (x, y)eb=(x,y)éa 
distância Manhattan dada por d(a, b) = |x, — x) + |y, — |. 


9-3 Estatísticas de ordem pequena 


Mostramos que o múmero T(n) de comparações do pior caso usadas por SeLecr para selecionar a i-ésima 
estatística de ordem de n números satisfaz a T(n) = Q(n), mas a constante oculta pela notação Q é bastante 
grande. Quando i é pequeno em relação a n, podemos implementar um procedimento diferente que utiliza 
SeLEcT Como uma sub-rotina, mas executa um número menor de comparações no pior caso. 


a. Descreva um algoritmo que utilize U(n) comparações para determinar o i-ésimo menor de n elementos, 
onde 


U(n= T(n) BeLond 2. 
Dida |n/2]+U, ([n/2)+T(i) caso contrário. 


(Sugestão: Comece com n/2 comparações disjuntas aos pares e efetue a recursão sobre o conjunto que 
contém o menor elemento de cada par.) 


b. Mostre que, se i <1n1/2, então Uí(n) = n + O(T(Qi) le(n/i)). 
c. Mostre que, se i é uma constante menor que n/2, então U(n) = n + O(lg n). 
d. Mostre que, sei=n /k para k > 2, então Un) = n + O(TQn/k) lg k). 

1-4 Andlise alternativa da seleção aleatorizada 


Neste problema, usamos variáveis aleatórias indicadoras para analisar o procedimento ranpomizep-seLecr de um 
modo semelhante ao de nossa análise de ranbomizep-quicksorr na Seção 7.4.2. 


Como na análise do quicksort, admitimos que todos os elementos são distintos e renomeanos os elementos do 
conjunto de entrada como A as z,, z,,..., z, onde z é o tésimo menor elemento. Assim, a chamada ranbomizeD- 
seLECT (À, 1, 1, k) retorna z,. 


Paral<i<j<n,seja 
Xi; = 1 tz; é comparado com z; em algum momento durante a execução do algoritmo para determinar z,j. 


a. Dê uma expressão exata para E Xy. (Sugestão: Sua expressão pode ter valores diferentes, dependendo 
dos valores de i,j e k.) 


b. Represente por X:o número total de comparações entre elementos do arranjo A ao determinar z:. Mostre 
que 


Ex I<SS Esp dctot Matoio 


i=1 j=k a pena j—k+1 i=1 gd 


c. Mostre que EX W< 4. 


d. Conclua que, considerando que todos os elementos do arranjo A são distintos, Ranpomizep-SeLECT É 
executado no tempo esperado O(n). 


NorTas DO CAPÍTULO 


O algoritmo de tempo linear do pior caso para determinar a mediana foi criado por Blum, Floyd, Pratt, Rivest e 
Tarjan [50]. A versão aleatorizada rápida se deve a Hoare [169]. Floyd e Rivest [108] desenvolveram uma versão 
aleatorizada melhorada que particiona em torno de um elemento selecionado recursivamente de uma pequena amostra 
dos elementos. 

Ainda não se sabe exatamente quantas comparações são necessárias para determinar a mediana. Bent e John [41] 
deram um limite inferior de 2n comparações para determinar a mediana, e Schônhage, Paterson e Pippenger [302] 
deram um limite superior de 3n. Dor e Zwick melhoraram esses limites. O limite superior dado por eles [93] é 
ligeiramente menor que 2,95n e o limite inferior [94] é (2 + ) n, para uma pequena constante positiva , o que é uma 


ligeira melhoria do trabalho relacionado de Dor et al. [92]. Paterson [272] descreve alguns desses resultados juntamente 
com outro trabalho relacionado. 


1 Como admítimos que os números são distintos, todas as medianas, exceto x, são maiores ou menores que x. 


Parte 


II ESTRUTURAS DE DADOS 


InrroDUÇÃO 


Conjuntos são tão fundamentais para a Ciência da Computação quanto para a Matemática. Enquanto os conjuntos 
matemáticos são invariáveis, os conjuntos manipulados por algoritmos podem crescer, encolher ou sofrer outras 
mudanças ao longo do tempo. Chamamos tais conjuntos de conjuntos dinâmicos. Os próximos cinco capítulos 
apresentam algumas técnicas básicas para representar conjuntos dinâmicos finitos e para manipular esses conjuntos em 
um computador. 

Algoritmos podem exigir a execução de vários tipos diferentes de operações em conjuntos. Por exemplo, muitos 
algoritmos precisam apenas da capacidade de inserir e eliminar elementos em um conjunto e testar a pertinência de 
elementos a um conjunto. Damos o nome de dicionário ao conjunto dinâmico que suporta essas operações. Outros 
algoritmos exigem operações mais complicadas. Por exemplo, filas de prioridade mínima, que foram introduzidas no 
Capítulo 6 no contexto da estrutura de dados heap, suportam as operações de inserção de um elemento no conjunto e 
de extração do menor elemento de um conjunto. A melhor maneira de implementar um conjunto dinâmico depende das 
operações que devem ser suportadas. 


Elementos de um conjunto dinâmico 


Em uma implementação típica de um conjunto dinâmico, cada elemento é representado por um objeto cujos 
atributos podem ser examinados e manipulados se tivermos um ponteiro para o objeto (a Seção 10.3 discute a 
implementação de objetos e ponteiros em ambientes de programação que não os contêm como tipos de dados 
básicos). Alguns tipos de conjuntos dinâmicos consideram que um dos atributos do objeto é uma chave de 
identificação. Se as chaves são todas diferentes, podemos imaginar o conjunto dinâmico como um conjunto de valores 
de chaves. O objeto pode conter dados satélites, que são transportados em atributos de outro objeto mas que, fora 
isso, não são utilizados pela implementação do conjunto. Também pode ter atributos que são manipulados pelas 
operações de conjuntos; esses atributos podem conter dados ou ponteiros para outros objetos no conjunto. 

Alguns conjuntos dinâmicos pressupõem que as chaves são extraídas de um conjunto totalmente ordenado como o 
dos números reais ou o de todas as palavras sob a ordenação alfabética usual. Uma ordenação total nos permite definir 
o elemento mínimo do conjunto, por exemplo, ou falar do próximo elemento maior que um dado elemento em um 
conjunto. 


Operações em conjuntos dinâmicos 


As operações em um conjunto dinâmico podem ser agrupadas em duas categorias: consultas, que simplesmente 
retornam informações sobre o conjunto, e operações modificadoras, que alteram o conjunto. Apresentamos a seguir, 


uma lista de operações típicas. Qualquer aplicação específica, normalmente exigirá a implementação de apenas algumas 
dessas operações. 


SearcH(S, k) 


Uma consulta que, dado um conjunto S e um valor de chave k, retorna um ponteiro x para um elemento em S tal 
que x.chave = k ou NIL se nenhum elemento desse tipo pertencer a S. 


Inserr(S, X) 


Uma operação modificadora que aumenta o conjunto S com o elemento apontado por x. Normalmente, 
consideramos que quaisquer atributos no elemento x necessários para a implementação do conjunto já foram 
inicializados. 


DeLere(S, x) 


Uma operação modificadora que, dado um ponteiro x para um elemento no conjunto S, remove x de S. (Observe 
que essa operação utiliza um ponteiro para um elemento x, não um valor de chave.) 


Mininum(S) 


Uma consulta em um conjunto totalmente ordenado S que retorna um ponteiro para o elemento de ;S que tenha a 
menor chave. 


Maximum(S) 


Uma consulta em um conjunto totalmente ordenado S que retorna um ponteiro para o elemento de .S que tenha a 
maior chave. 


Successor(S, X) 


Uma consulta que, dado um elemento x cuja chave é de um conjunto totalmente ordenado S, retorna um ponteiro 
para o elemento maior seguinte em S ou NIL se x é o elemento máximo. 


PrepEcEssOR(S, X) 


Uma consulta que, dado um elemento x, cuja chave é de um conjunto totalmente ordenado S, >retorna um 
ponteiro para o elemento menor seguinte em,S ou NIL se x é o elemento mínimo. 


Em algumas situações, podemos estender as consultas Successor e Prepecessor de modo que se apliquem a 
conjuntos com chaves não distintas. Para um conjunto com n chaves, normalmente presume-se que uma chamada a 
Minimum seguida por n — 1 chamadas a Successor enumera os elementos no conjunto em sequência ordenada. 

Em geral, medimos o tempo empregado para executar uma operação de conjunto em termos do tamanho do 
conjunto. Por exemplo, o Capítulo 13 descreve uma estrutura de dados que pode suportar qualquer das operações da 
lista apresentada em um conjunto de tamanho n no tempo O(lg nn). 


Visão geral da Parte HI 


Os Capítulos 10 a 14 descrevem várias estruturas de dados que podemos usar para implementar conjuntos 
dinâmicos; mais adiante, usaremos muitas dessas estruturas para construir algoritmos eficientes para uma variedade de 
problemas. Já vimos uma outra estrutura de dados importante — o heap — no Capítulo 6. 


O Capítulo 10 apresenta os fundamentos essenciais do trabalho com estruturas de dados simples como pilhas, filas, 
listas ligadas e árvores enraizadas. Mostra também como implementar objetos e ponteiros em ambientes de 
programação que não os suportam como primitivas. Se você frequentou um curso introdutório de programação, já deve 
estar familiarizado com grande parte desse material. 

O Capítulo 11 introduz as tabelas hash (ou tabelas de espalhamento) que suportam as operações de dicionário 
Insert, DELETE € SEARCH. NO pior caso, o hashing (ou espalhamento) requer o tempo O(n) para executar uma operação 
SEARCH, Mas O tempo esperado para operações de tabelas de espalhamento é O(1). A análise do hashing se baseia na 
probabilidade, mas a maior parte do capítulo não requer nenhuma experiência no assunto. 

As árvores de busca binária, que são focalizadas no Capítulo 12, suportam todas as operações de conjuntos 
dinâmicos que figuram na lista apresentada. No pior caso, cada operação demora o tempo O(n) em uma árvore com n 
elementos mas, em uma árvore de busca binária construída aleatoriamente, o tempo esperado para cada operação é 
O(lg n). As árvores de busca binária servem como base para muitas outras estruturas de dados. 

O Capítulo 13 apresenta as árvores vermelho-preto, que são uma variante de árvores de busca binária. 
Diferentemente das árvores de busca binária comuns, o bom funcionamento das árvores vermelho-preto é garantido: as 
operações demoram o tempo O(lg nn) no pior caso. Uma árvore vermelho-preto é uma árvore de busca balanceada; o 
Capítulo 18 na Parte V apresenta um outro tipo de árvore de busca balanceada, denominada árvore B. Embora a 
mecânica das árvores vermelho-preto seja um pouco complicada, você pode perceber grande parte de suas 
propriedades pelo capítulo, sem estudar detalhadamente a mecânica. Não obstante, você verá que examinar o código é 
bastante instrutivo. 

No Capítulo 14, mostramos como aumentar as árvores vermelho-preto para suportar outras operações além das 
básicas que aparecem na lista apresentada. Primeiro, aumentamos as árvores de modo que possamos manter 
dinamicamente estatísticas de ordem para um conjunto de chaves. Em seguida, nós as aumentamos de um modo 
diferente para manter intervalos de números reais. 


ESTRUTURAS DE DADOS ELEMENTARES 


Neste capítulo, examinaremos a representação de conjuntos dinâmicos por estruturas de dados simples que usam 
ponteiros. Embora possamos construir muitas estruturas de dados complexas que utilizam ponteiros, apresentaremos 
apenas as rudimentares: pilhas, filas, listas ligadas e árvores enraizadas. Também mostraremos meios de sintetizar 
objetos e ponteiros partindo de arranjos. 


10.1 PrrmasE FILAS 


Pilhas e filas são conjuntos dinâmicos nos quais o elemento removido do conjunto pela operação DeLere é 
especificado previamente. Em uma pilha, o elemento eliminado do conjunto é o mais recentemente inserido: a pilha 
implementa uma política de último a entrar, primeiro a sair ou LIFO (last-in, first-out). De modo semelhante, em 
uma fila o elemento eliminado é sempre o que estava no conjunto há mais tempo: a fila implementa uma política de 
primeiro a entrar, primeiro a sair ou FIFO (first-m, first-out). Há vários modos eficientes de implementar pilhas e 
filas em um computador. Nesta seção, mostraremos como usar um arranjo simples para implementar cada uma delas. 


Pilhas 


A operação Inserrem uma pilha é frequentemente denominada Pusn, e a operação Dezere, que não toma um 
argumento de elemento, é frequentemente denominada Por. Esses nomes são alusões a pilhas físicas, como as pilhas de 
pratos acionadas por molas usadas em restaurantes. A ordem em que os pratos são retirados da pilha é o inverso da 
ordem em que foram colocados na pilha, já que apenas o prato do topo está acessível. 

Como mostra a Figura 10.1, podemos implementar uma pilha de no máximo n elementos com um arranjo S[1.. n]. 
O arranjo tem um atributo S.topo que indexa o elemento mais recentemente inserido. A pilha consiste nos elementos S[1 
.. S.topo], onde S[1] é o elemento na parte inferior da pilha e S[S.topo] é o elemento na parte superior. 

Quando S.topo = 0, a pilha não contém nenhum elemento e está vazia. Podemos testar se a pilha está vazia pela 
operação de consulta Stack-Empry. Se tentarmos extrair algo de uma pilha vazia, dizemos que a pilha tem estouro 
negativo, que é normalmente um erro. Se S.topo exceder n, a pilha tem um estouro. (Em nossa implementação de 
pseudocódigo, não nos preocuparemos com estouro de pilha.) 

Podemos implementar cada uma das operações em pilhas com apenas algumas linhas de código. 


STACK-EMPTY(S) 


1 if S.topo== 
2 return TRUE 
3 else return FALSE 


PusH(S, x) 


1 S.topo=S.topo +1 
2 SiSdmpol=-+ 


POP(S) 

1 if Strack-Empry(S) 

2 error “underflow” 
3 else S.topo =S.topo-1 


4 return S[S.topo + 1] 


A Figura 10.1 mostra os efeitos das operações modificadoras Pusm (EmprHar) € Por (DesempicHar). Cada uma das 
três operações em pilha demora o tempo O(1). 


Filas 


Designamos a operação Inserr em uma fila por Enquevr (Enrieirar) € à operação DeLerte por Dequeve (DEsINFILEIRAR); 
assim como a operação em pilhas Por, Dequeur não adota nenhum argumento de elemento. A propriedade FIFO de uma 
fila faz com que ela funcione como uma fileira de pessoas em uma caixa registradora. A fila tem um início (ou cabeça) e 
um fim (ou cauda). Quando um elemento é inserido na fila, ocupa seu lugar no fim da fila, exatamente como um cliente 
que acabou de chegar ocupa um lugar no final da fileira. O elemento retirado da fila é sempre aquele que está no início 
da fila, como o cliente que está no início da fileira e esperou por mais tempo. 

A Figura 10.2 mostra um modo de implementar uma fila de no máximo n — 1 elementos usando um arranjo O[1.. 
n). A fila tem um atributo O.início que indexa ou aponta para seu início. O atributo Q.fim indexa a próxima posição na 
qual um elemento recém-chegado será inserido na fila. Os elementos na fila estão nas posições O.início, O.início + 1, 
«o QO.fim — 1, onde “retornamos”, no sentido de que a posição 1 segue imediatamente a posição n em uma ordem 
circular. Quando O.início = O.fim, a fila está vazia. Inicialmente, temos QO.início = O.fim = 1. Se tentarmos desenfileirar 
um elemento de uma fila vazia, a fila sofre perda de dígitos. Quando O.início = O.fim + 1 ou simultaneamente O. início 
= | e O.fim = Q.comprimento, a fila está cheia e, se tentarmos enfileirar um elemento, a fila sofre estouro. 
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Figura 10.1 Uma implementação de arranjo de uma pilha S. Os elementos da pilha aparecem somente nas posições sombreadas emtom 
mais claro. (a) A pilha S tem quatro elementos. O elemento do topo é 9. (b) A pilha S após as chamadas Pusn(S, 17) e Pusn(S, 3). (e) A pilha 
S após a chamada PoP(S) retomou o elemento 3, que é o elemento mais recentemente inserido na pilha. Embora ainda apareça no arranjo, 
o elemento 3 não está mais na pilha; o topo é o elemento 17. 
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Figura 10.2 Uma fila implementada com a utilização de umarranjo O 1... 12. Os elementos da fila aparecem somente nas posições 
sombreadas em tom mais claro. (a) A fila tem cinco elementos, nas posições O 7... 11. (bJA configuração da fila após as chamadas 
Enqueue(O, 17), Enqueue(O, 3) e Enqueve(O, 5). (ce) A configuração da fila após a chamada Dequrur(O) retornar o valor de chave 15 que se 
encontrava anteriormente no início da fila. O novo início tem chave 6. 


Em nossos procedimentos Enqueur € Dequeue, omitimos a verificação de erros de estouro negativo e estouro. (O 
Exercício 10.1-4 pede que você forneça o código que verifica essas duas condições de erro.) O pseudocódigo 
considera que n = O.comprimento. 


ENQuUEUE(O, x) 


1º AQ fim] =x 

2 if Qfim — Q.comprimento 
3 Qfim=1 

4 else Qfim = Qfim +1 
DequEvr(O) 


1 x= Q[O.início] 

2 if Q.início == Q.comprimento 
3 Q.início = 1 

4 else Q.início = Q.início 41 

5 return 


A Figura 10.2 mostra os efeitos das operações Enqueur e Dequeur. Cada operação demora o tempo O(1). 


Exercícios 


10.1-1 Usando a Figura 10.1 como modelo, ilustre o resultado de cada operação na sequência Pus(S, 4), Pusu(S, 1), 
PusH(S, 3), Por(S), PusH(S, 8) e Por(S) sobre uma pilha S inicialmente vazia armazenada no arranjo S[1... 6]. 


10.1-2 Explique como implementar duas pilhas em um único arranjo A[1 .. n] de tal modo que nenhuma delas sofra 
um estouro a menos que o número total de elementos em ambas as pilhas juntas seja n. As operações Pusu e 
Por devem ser executadas no tempo O(1). 


10.1-3 Usando a Figura 10.2 como modelo, ilustre o resultado de cada operação na sequência Enqueur(O, 4), 
Enqueve(O, 1), Enqueve(O, 3), Dequeve(O), Enqueve(O, 8) e Dequevr(O) em uma fila Q inicialmente vazia 
armazenada no arranjo O[1 .. 6]. 


10.1-4 Reescreva Exquevr e Dequeur para detectar o estouro negativo e o estouro de uma fila. 


10.1-5 Enquanto uma pilha permite inserção e eliminação de elementos em apenas uma extremidade e uma fila 
permite inserção em uma extremidade e eliminação na outra extremidade, uma degue (double-ended queue, 
ou fila de extremidade dupla) permite inserção e eliminação em ambas as extremidades. Escreva quatro 
procedimentos de tempo O(1) para inserir elementos e eliminar elementos de ambas as extremidades de uma 
deque construída a partir de um arranjo. 


10.1-6 Mostre como implementar uma fila usando duas pilhas. Analise o tempo de execução das operações em filas. 


10.1-7 Mostre como implementar uma pilha usando duas filas. Analise o tempo de execução das operações em 
pilhas. 


10.2 Listas LIGADAS 


Uma lista ligada é uma estrutura de dados na qual os objetos estão organizados em ordem linear. Entretanto, 
diferentemente de um arranjo, no qual a ordem linear é determinada pelos índices do arranjo, a ordem em uma lista 
ligada é determinada por um ponteiro em cada objeto. Listas ligadas nos dão uma representação simples e flexível para 
conjuntos dinâmicos, suportando (embora não necessariamente com eficiência) todas as operações que aparecem na 
lista à página 166. 

Como mostra a Figura 10.3, cada elemento de uma lista duplamente ligada L é um objeto com um atributo 
chave e dois outros atributos ponteiros: próximo e anterior. O objeto também pode conter outros dados satélites. 
Dado um elemento x na lista, x.próximo aponta para seu sucessor na lista ligada e x.anterior aponta para seu 
predecessor. Se x.anterior = n1L, O elemento x não tem nenhum predecessor e, portanto, é o primeiro elemento, ou 
início, da lista. Se x.próximo = nt, O elemento x não tem nenhum sucessor e, assim, é o último elemento, ou fim, da 
lista. Um atributo L.início aponta para o primeiro elemento da lista. Se L.início = Nr, a lista está vazia. 

Uma lista pode ter uma entre várias formas. Fla pode ser simplesmente ligada ou duplamente ligada, pode ser 
ordenada ou não e pode ser circular ou não. Se uma lista é simplesmente ligada, omitimos o ponteiro anterior em 
cada elemento. Se uma lista é ordenada, a ordem linear da lista corresponde à ordem linear de chaves armazenadas em 
elementos da lista; então, o elemento mínimo é o início da lista, e o elemento máximo é o fim. Se a lista é não 
ordenada, os elementos podem aparecer em qualquer ordem. Em uma lista circular, o ponteiro anterior do início da 
lista aponta para o fim, e o ponteiro próximo do fim da lista aponta para o início. Podemos imaginar uma lista circular 


como um anel de elementos. No restante desta seção, supomos que as listas com as quais estamos trabalhando são 
listas não ordenadas e duplamente ligadas. 


Como fazer uma busca em uma lista ligada 


O procedimento Lisr-Sesrcn(L, k) encontra o primeiro elemento com chave k na lista L por meio de uma busca 
linear simples, retornando um ponteiro para esse elemento. Se nenhum objeto com chave k aparecer na lista, o 
procedimento retorna Nr. No caso da lista ligada da Figura 10.3(a), a chamada Lisr-Searcn(L, 4) retorna um ponteiro 
para o terceiro elemento, e a chamada Lisr-Searcn(L, 7) retorna Ni. 
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Figura 10.3 (a) Uma lista duplamente ligada L representando o conjunto dinâmico (1, 4,9, 16). Cada elemento na lista é um objeto com 
atributos para a chave e ponteiros (mostrados por setas) para o próximo objeto e para o objeto anterior. O atributo próximo do fime o 
atributo anterior do início são nr, indicados por uma barra diagonal. O atributo L.início aponta para o início. (b) Seguindo a execução 
de Lisr-insErr(L, x), onde x.chave = 25, a lista ligada tem umnovo objeto com chave 25 como o novo início. Esse novo objeto aponta 
para o antigo início com chave 9.(e) O resultado da chamada subsequente Lis-Der(L, x), onde x aponta para o objeto comchave 4. 


Listr-SEARCH(L, k) 


| = Einigo 

2 whilex=nmex.chave = k 
3 X = x.próximo 

4 retumnx 


Para fazer uma busca em uma lista de n objetos, o procedimento Lisr-Searcn demora o tempo Q(n) no pior caso, já 
que talvez tenha de pesquisar a lista inteira. 


Inserção em uma lista ligada 
Dado um elemento x cujo atributo chave já foi definido, o procedimento Lisr-Inserr “emenda” x à frente da lista 


ligada, como mostra a Figura 10.3(b). 


LisT-INSERT(L, x) 


x.próximo = L.início 

if L.início > NIL 
L.início.anterior = x 

L.início = x 

x.anterior = NIL 


q HR ONm 


(Lembre-se de que nossa notação de atributo pode ser usada em cascata, de modo que L.início.anterior denota 
o atributo anterior do objeto que L.início aponta.) O tempo de execução para Lisr-Inserr para uma lista de n elementos 
é O(1). 


Eliminação em uma lista ligada 


O procedimento Lisr-DeLere remove um elemento x de uma lista ligada L. Ele deve receber um ponteiro para x, e 
depois “desligar ” x da lista atualizando os ponteiros. Se desejarmos eliminar um elemento com determinada chave, 
deveremos primeiro chamar Lisr-Searcn, para reaver um ponteiro para o elemento. 


Lisr-DeLETE(L, x) 


1 ifx.anterior  NIL 

2 x.anterior.próximo = x.próximo 
3 else L.início = x.próximo 

4  ifx.próximo = NIL 

5 x.próximo.anterior = x.anterior 


A Figura 10.3(c) mostra como um elemento é eliminado de uma lista ligada. Lisr-DeL er; é executado no tempo O(1) 
mas, se desejarmos eliminar um elemento com uma dada chave, será necessário o tempo O(n) no pior caso porque 
primeiro devemos chamar Lisr-SgarcH. 


Sentinelas 


O código para Lisr-Deere seria mais simples se pudéssemos ignorar as condições de contorno no início e no fim da 
lista. 
Lisr-DELETE'(L, x) 


1 x.anterior.próximo = x.próximo 
2 x.próximo.anterior = x.anterior 


Uma sentinela é um objeto fictício que nos permite simplificar condições de contorno. Por exemplo, suponha que 
suprimos com uma lista L um objeto L.nil que representa Nr, mas tem todos os atributos dos outros objetos da lista. 
Onde quer que tenhamos uma referência a nm no código da lista, nós a substituímos por uma referência à sentinela L.nil. 
Como mostra a Figura 10.4, essa mudança transforma uma lista duplamente ligada normal em uma lista circular 
duplamente ligada com uma sentinela, na qual a sentinela L.nil se encontra entre o início e o fim; o atributo 
L.nulo.próximo aponta para o início da lista e L.nil.anterior aponta para o fim. De modo semelhante, tanto o atributo 
próximo do fim quanto o atributo anterior do início apontam para L.nil. Visto que L.nil próximo aponta para o início, 
podemos eliminar totalmente o atributo L.início, substituindo as referências a ele por referências a L.nil. próximo. A 
Figura 10.4(a) mostra que uma lista vazia consiste apenas na sentinela e que L.nil. próximo e L.nil. anterior apontam 
para L.nil. 

O código para Lisr-Searcn permanece o mesmo de antes, porém com as referências a nn e Linício modificadas 
como já especificado: 
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Figura 10.4 Uma lista circular duplamente ligada com uma sentinela. A sentinela L.nil aparece entre o início e o fim. O atributo L.início 
não é mais necessário, visto que podemos acessar o início da lista por L.nil próximo. (a) Uma lista vazia. (b) A lista ligada da Figura 
10.3(a), com chave 9 no início e chave 1 no fim. (c) A lista após a execução de Lisr-insErr"(L, x), onde x.chave = 25. Onovo objeto se 
toma o início da lista. (d) A lista após a eliminação do objeto com chave 1. Onovo fim é o objeto com chave 4. 


List-SEARCH'(L, k) 


1 x=Lenil.próximo 

2 whilex = L.nile x.chave = k 
3 x = x.próximo 

4 return x 


Usamos o procedimento de duas linhas Lisr-Derere” de antes para eliminar um elemento da lista. O seguinte 
procedimento insere um elemento na lista: 


Lisr-INSERT'(L, x) 


1 x.próximo = L.nil.próximo 
2 Lenil.próximo.anterior = x 
3 Lnil.próximo =x 
4 x.anterior = L.nil 


A Figura 10.4 mostra os efeitos de Lisr-Inserr” e Lisr-DeLere” sobre uma amostra de lista. 

Sentinelas raramente reduzem os limites assintóticos de tempo de operações de estrutura de dados, mas podem 
reduzir fatores constantes. O ganho da utilização de sentinelas dentro de laços em geral é uma questão de clareza de 
código em vez de velocidade; por exemplo, o código da lista ligada fica mais simples quando usamos sentinelas, mas 
poupamos apenas o tempo O(1) nos procedimentos Lisr-Inserr” e Lisr-DeLere”. Contudo, em outras situações, a 
utilização de sentinelas ajuda a restringir o código em um laço, reduzindo assim o coeficiente de, digamos, n ou n, no 
tempo de execução. 

Devemos usar sentinelas com sensatez. Quando houver muitas listas pequenas, o armazenamento extra usado por 
suas sentinelas poderá representar desperdício significativo de memória. Neste livro, só utilizaremos sentinelas quando 
elas realmente simplificarem o código. 


Exercícios 


10.2-1 Você pode implementar a operação de conjuntos dinâmicos Inserr em uma lista simplesmente ligada em tempo 
O(1)? E a operação Deere ? 


10.2-2 Implemente uma pilha usando uma lista simplesmente ligada L. As operações Pusn e Por ainda devem demorar 
o tempo O(1). 


10.2-3 Implemente uma fila por meio de uma lista simplesmente ligada L. As operações Enqueur € Dequeur ainda 
devem demorar o tempo O(1). 


10.2-4 Como está escrita, cada iteração do laço no procedimento Lisr-Searcn” exige dois testes: um para x £ L.nil e 
um para x.chave £ k. Mostre como eliminar o teste para x 4 L.nil em cada iteração. 


10.2-5 Implemente as operações de dicionário Inserr, Deere € SearcH usando listas circulares simplesmente ligadas. 
Quais são os tempos de execução dos seus procedimentos? 


10.2-6 A operação em conjuntos dinâmicos Union utiliza dois conjuntos disjuntos S, e S, como entrada e retorna um 
conjunto S=.S, U $, que consiste em todos os elementos de S, e S,. Os conjuntos S, e $, são normalmente 
destruídos pela operação. Mostre como suportar Union no tempo O(1) usando uma estrutura de dados de lista 
adequada. 


10.2-7 Dê um procedimento não recursivo de tempo O(n) que inverta uma lista simplesmente ligada de n elementos. 
O procedimento só pode usar armazenamento constante além do necessário para a própria lista. 


10.2-8 %X Explique como implementar listas duplamente ligadas usando somente um valor de ponteiro x.np por item, 
em vez dos dois valores usuais (próximo e anterior). Suponha que todos os valores de ponteiros podem ser 
interpretados como inteiros de k bits e defina x.np como x.np = x.próximo XOR x.anterior [x] o “ou 
exclusivo” de k bits de x.próximo e x.anterior. (O valor nrt é representado por 0.) Não esqueça de 
descrever as informações necessárias para acessar o início da lista. Mostre como implementar as operações 
SEarcH, INserT E Deere em tal lista. Mostre também como inverter essa lista em tempo O(1). 


10.3 ImpLEMENTAÇÃO DE PONTEIROS E OBJETOS 


Como implementamos ponteiros e objetos em linguagens que não os oferecem? Nesta seção, veremos dois modos 
de implementar estruturas de dados ligadas sem um tipo de dados ponteiro explícito. Sintetizaremos objetos e ponteiros 
de arranjos e índices de arranjos. 


Uma representação de objetos em vários arranjos 


Podemos representar uma coleção de objetos que têm os mesmos atributos usando um arranjo para cada atributo. 
Como exemplo, a Figura 10.5 mostra como podemos implementar a lista ligada da Figura 10.3(a) com três arranjos. A 
chave do arranjo contém os valores das chaves presentes atualmente no conjunto dinâmico, e os ponteiros são 
armazenados nos arranjos próximo e anterior. Para um dado índice de arranjo x, chavelx], próximo|x] e anterior(x] 
representam um objeto na lista ligada. Por essa interpretação, um ponteiro x é simplesmente um índice comum para os 
arranjos chave, próximo e anterior. 

Na Figura 10.3(a), o objeto com chave 4 vem após o objeto com chave 16 na lista ligada. Na Figura 10.5, chave 
4 aparece em chavel2] e chave 16 aparece em chave[5]; assim, temos próximo[5] = 2 e anterior[2] = 5. Embora a 
constante nr. apareça no atributo próximo do fim e no atributo anterior do início, em geral usamos um inteiro (como O 
ou — 1) que não poderia, de modo algum, representar um índice real para os arranjos. Uma variável L contém o índice 
do início da lista. 


Uma representação de objetos com um único arranjo 


As palavras na memória de um computador, normalmente são endereçadas por inteiros de O a M— 1, onde M é 
um inteiro adequadamente grande. Em muitas linguagens de programação, um objeto ocupa um conjunto contíguo de 
posições na memória do computador. Um ponteiro é simplesmente o endereço da primeira posição de memória do 
objeto, e podemos endereçar outras posições de memória dentro do objeto acrescentando um deslocamento ao 
ponteiro. 

Podemos utilizar a mesma estratégia para implementar objetos em ambientes de programação que não fornecem 
ponteiros explícitos. Por exemplo, a Figura 10.6 mostra como usar um único arranjo 4 para armazenar a lista ligada das 
Figuras 10.3(a) e 10.5. Um objeto ocupa um subarranjo contíguo A[; .. k]. Cada atributo do objeto corresponde a um 
deslocamento na faixa O a k — j, e um ponteiro para o objeto é o índice j. Na Figura 10.6, os deslocamentos 
correspondentes a chave, próximo e anterior são 0, 1 e 2, respectivamente. Para ler o valor de anterior[i], dado um 
ponteiro i, adicionamos o valor i do ponteiro ao deslocamento 2, lendo assim Af[i + 2]. 
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Figura 10.5 A lista ligada da Figura 10.3(a) representada pelos arranjos chave, próximo e anterior Cada fatia vertical dos arranjos 
representa um único objeto. Os ponteiros armazenados correspondem aos índices do arranjo mostrados na parte superior; as setas 
mostram como interpretá-los. As posições de objetos sombreadas em tom mais claro contêm elementos de listas. A variável L mantémo 
índice do início. 
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Figura 10.6 A lista ligada das Figuras 10.3(a) e 10.5, representada em umúnico arranjo 4. Cada elemento da lista é um objeto que ocupa 
um subarranjo contíguo de comprimento 3 dentro do arranjo. Os três atributos chave, próximo e anterior correspondemaos 
deslocamentos 0, 1 e 2, respectivamente, dentro de cada objeto. Um ponteiro para um objeto é um índice do primeiro elemento do objeto. 
Objetos que contêm elementos da lista estão sombreados em tommais claro, e as setas mostrama ordenação da lista. 


A representação de um único arranjo é flexível no sentido de que permite que objetos de diferentes comprimentos 
sejam armazenados no mesmo arranjo. O problema de administrar tal coleção heterogênea de objetos é mais dificil que 
o problema de administrar uma coleção homogênea, onde todos os objetos têm os mesmos atributos. Visto que a 
maioria das estruturas de dados que consideraremos são compostas por elementos homogêneos, será suficiente para 
nossa finalidade empregar a representação de objetos em vários arranjos. 


Alocação e liberação de objetos 


Para inserir uma chave em um conjunto dinâmico representado por uma lista duplamente ligada, devemos alocar 
um ponteiro a um objeto que não está sendo utilizado na representação da lista ligada no momento considerado. Por 
isso, é útil gerenciar o armazenamento de objetos não utilizados na representação da lista ligada nesse momento, de tal 
modo que um objeto possa ser alocado. Em alguns sistemas, um coletor de lixo é responsável por determinar quais 
objetos não são utilizados. Porém, muitas aplicações são tão simples que podem assumir a responsabilidade pela 
devolução de um objeto não utilizado a um gerenciador de armazenamento. Agora, exploraremos o problema de alocar 
e liberar (ou desalocar) objetos homogêneos utilizando o exemplo de uma lista duplamente ligada representada por 
vários arranjos. 

Suponha que os arranjos na representação de vários arranjos tenham comprimento m e que em algum momento o 
conjunto dinâmico contenha n < m elementos. Então, n objetos representam elementos que se encontram atualmente no 
conjunto dinâmico, e os m — n objetos restantes são livres; os objetos livres estão disponíveis para representar 
elementos inseridos no conjunto dinâmico no fituro. 

Mantemos os objetos livres em uma lista simplesmente ligada, que denominamos lista livre. A lista livre usa 
apenas o arranjo próximo, que armazena os ponteiros próximo na lista. O início da lista livre está contido na variável 
global livre. Quando o conjunto dinâmico representado pela lista ligada L é não vazio, a lista livre pode estar 
entrelaçada com a lista L, como mostra a Figura 10.7. Observe que cada objeto na representação está na lista L ou na 
lista livre, mas não em ambas. 

A lista livre funciona como uma pilha: o próximo objeto alocado é o último objeto liberado. 
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Figura 10.7 O efeito dos procedimentos ALLocATE-oBIEcr e FrREE-oBjEcr. (a) À lista da Figura 10.5 (sombreada em tom mais claro) e uma 
lista livre (sombreada em tom mais escuro). As setas mostram a estrutura da lista livre. (b) O resultado da chamada ALLocATE-oBIEcr() 
(que retorna o índice 4), que define chave4 como 25, e chama Iisr-insErr(L, 4). Onovo início da lista livre é o objeto 8, que era próximo4 
na lista livre. (c) Após executar list-DELETE(L, 5), chamamos FrEE-oBsEcrs(5). O objeto 5 se toma o novo início da lista livre, seguido pelo 
objeto 8 na lista livre. 


Podemos usar uma implementação de lista das operações de pilhas Pusn e Por, para implementar os procedimentos para 
alocar e liberar objetos, respectivamente. Consideramos que a variável global livre usada nos procedimentos a seguir, 
aponta para o primeiro elemento da lista livre. 


ALLOCATE-OBJECT( ) 


if livre == NIL 
error “out of space” 


livre = x.próximo 


1 
2 
3 elsex= livre 
4 
5 return x 


FrEE-OBJECT(X) 


1 x.próximo = livre 
2º; Iúre=% 


A lista livre contém, inicialmente, todos os n objetos não alocados. Assim que a lista livre é esgotada, o 
procedimento ALLocare-Ossecr sinaliza um erro. Podemos até mesmo atender a várias listas ligadas com apenas uma 
única lista livre. A Figura 10.8 mostra duas listas ligadas e uma lista livre entrelaçadas por meio de arranjos chave, 
próximo e anterior. 

Os dois procedimentos são executados no tempo O(1), o que os torna bastante práticos. Podemos modificá-los de 
modo que funcionem para qualquer coleção homogênea de objetos permitindo que qualquer um dos atributos no objeto 
aja como um atributo próximo na lista livre. 


livre 


9 4 5 6 788 


LL 


L próximo 6 8 PARE” o 
2 chave 


L, anterior 7|6|7 no Es 


Figura 10.8 Duas listas ligadas, L, (sombreada em tom mais claro) e L, (sombreada em tom mais escuro), e uma lista livre (em negro) 
entrelaçada. 


Exercícios 


10.3-1 Trace um quadro da sequência (13, 4, 8, 19,5, 11) armazenada como uma lista duplamente ligada utilizando a 
representação de vários arranjos. Faça o mesmo para a representação de um único arranjo. 


10.3-2 Escreva os procedimentos ArLocate-OsJEcTE Frer-OsJecrpara uma coleção homogênea de objetos 
implementada pela representação de um único arranjo. 


10.3-3 Por que não precisamos definir ou redefinir os atributos anterior de objetos na implementação dos 
procedimentos AtLocare-OBJecr E FrEE-OpJeCT? 


10.3-4 Muitas vezes, é desejável manter todos os elementos de uma lista duplamente ligada de forma compacta no 
armazenamento usando, por exemplo, as primeiras m posições do índice na representação de vários arranjos. 
(Esse é o caso em um ambiente de computação de memória virtual paginada.) Explique como implementar os 
procedimentos ArLocare-OBJecr E Frer-Ossecr de modo que a representação seja compacta. Suponha que não 
existem ponteiros para elementos da lista ligada fora da própria lista. (Sugestão: Use a implementação de uma 
pilha em arranjo.) 


10.3-5 Seja L uma lista duplamente ligada de comprimento n armazenada em arranjos chave, anterior e próximo de 
comprimento m. Suponha que esses arranjos sejam gerenciados por procedimentos ALLocarE-OBJecT E FrEE- 
Ossecr que mantêm uma lista livre duplamente ligada F. Suponha ainda que, dos m itens, exatamente n estejam 
na lista L em — n na lista livre. Escreva um procedimento Compacnry-Lisr(L, HF) que, dadas a lista Z e a lista 
livre F, desloque os ítens em £ de modo que ocupem as posições de arranjo 1, 2, ...,n e ajuste a lista livre F 
para que ela permaneça correta, ocupando as posições de arranjo m + 1,m +2, ...,n. O tempo de execução 
do seu procedimento deve ser O(m), e ele deve utilizar somente uma quantidade constante de espaço extra. 
Justifique que seu procedimento está correto. 


10.4 REPRESENTAÇÃO DE ÁRVORES ENRAIZADAS 


Os métodos para representar listas dados na seção anterior se estendem a qualquer estrutura de dados 
homogênea. Nesta seção, examinaremos especificamente o problema da representação de árvores enraizadas por 
estruturas de dados ligadas. Primeiro, veremos as árvores binárias e depois apresentaremos um método para árvores 
enraizadas nas quais os nós podem ter um número arbitrário de filhos. 

Representamos cada nó de uma árvore por um objeto. Como no caso das listas ligadas, supomos que cada nó 
contém um atributo chave. Os atributos de interesse restantes são ponteiros para outros nós e variam de acordo com o 
tipo de árvore. 


Arvores binárias 


A Figura 10.9 mostra como usamos os atributos p, esquerdo e direito para armazenar ponteiros para o pai, o filho 
da esquerda e o filho da direita de cada nó em uma árvore binária 7. Se x.p = nt, então x é a raiz. Se o nó x não tem 
nenhum filho à esquerda, então x.esquerdo = nn., € o mesmo ocorre para o filho à direita. A raiz da árvore T inteira é 
apontada pelo atributo Traiz. Se Traiz = nr, então a árvore é vazia. 


Arvores enraizadas com ramificações ilimitadas 


Podemos estender o esquema para representar uma árvore binária a qualquer classe de árvores na qual o número 
de filhos de cada nó seja no máximo alguma constante k: substituímos os atributos esquerdo e direito por filho, filho,, 
“., filho,. Esse esquema deixa de funcionar quando o número de filhos de um nó é ilimitado, já que não sabemos 
quantos atributos (arranjos na representação de vários arranjos) devemos alocar antecipadamente. Além disso, ainda 
que o número de filhos k seja limitado por uma constante grande, mas a maioria dos nós tenha um número pequeno de 
filhos, é possível que desperdicemos grande quantidade de memória. 

Felizmente, existe um esquema inteligente para representar árvores com números arbitrários de filhos. Tal esquema 
tem a vantagem de utilizar somente o espaço O(n) para qualquer árvore enraizada de n nós. A representação filho da 
esquerda, irmão da direita aparece na Figura 10.10. Como antes, cada nó contém um ponteiro pai p, e Trraiz aponta 
para a raiz da árvore 7. Contudo, em vez de ter um ponteiro para cada um de seus filhos, cada nó x tem somente dois 
ponteiros: 


1. x.filho-esquerdo aponta para o filho da extremidade esquerda do nó x, e 
2. x.irmão-direito aponta para o irmão de x imediatamente à sua direita. 


Se o nó x não tem nenhum filho, então x.filho-esquerdo = nu e, se o nó x é o filho da extrema direita de seu pai, 
então x.irmão-direito = nt. 


Outras representações de árvores 


Algumas vezes, representamos árvores enraizadas de outras maneiras. Por exemplo, no Capítulo 6, representamos 
um heap, que é baseado em uma árvore binária completa, por um único arranjo mais o índice do último nó no heap. As 
árvores que aparecem no Capítulo 21 são percorridas somente em direção à raiz; assim, apenas os ponteiros pais estão 
presentes: não há ponteiros para filhos. Muitos outros esquemas são possíveis. O melhor esquema dependerá da 
aplicação. 


Figura 10.9 A representação de uma árvore binária 7. Cada nó x temos atributos x.p (superior), x.esquerdo (inferior esquerdo) e 
x.direito (inferior direito). Os atributos chave não estão mostrados. 


Figura 10.10 A representação filho da esquerda, irmão da direita de uma árvore 7. Cada nó x tem atributos x.p (superior), x.filho- 
esquerdo (inferior esquerdo) e x.irmão-direito (inferior direito). As chaves não são mostradas. 


Exercícios 


10.4-1 Desenhe a árvore binária enraizada no índice 6 que é representada pelos seguintes atributos: 


índice chave esquerdo direito 
l 12 7 3 
2 15 8 NIL 
3 + 10 NIL 
4 10 5 9 
5 b) NIL NIL 
6 18 l 4 
7 7 NIL NIL 
8 14 6 2 
9 51 NIL NIL 
10 5 NIL NIL 


10.4-2 Escreva um procedimento recursivo de tempo O(n) que, dada uma árvore binária de n nós, imprima a chave 
de cada nó na árvore. 


10.4-3 Escreva um procedimento não recursivo de tempo O(n) que, dada uma árvore binária de n nós, imprima a 
chave de cada nó na árvore. Use uma pilha como estrutura de dados auxiliar. 


10.4-4 Escreva um procedimento de tempo O(n) que imprima todas as chaves de uma árvore enraizada arbitrária 
com nós, onde a árvore é armazenada usando a representação filho-esquerdo, irmão-direito. 


10.4-5 &X Escreva um procedimento não recursivo de tempo O(n) que, dada uma árvore binária de n nós, imprima a 
chave de cada nó. Não utilize mais que um espaço extra constante fora da própria árvore e não modifique a 
árvore, mesmo temporariamente, durante o procedimento. 


10.4-6 XX A representação fiho-esquerdo, irmão-direito de uma árvore enraizada arbitrária utiliza três ponteiros em 
cada nó: filho da esquerda, irmão da direita e pai. De qualquer nó, seu pai pode ser alcançado e 
identificado em tempo constante e todos os seus filhos podem ser alcançados e identificados em tempo linear 
em relação ao número de filhos. Mostre como usar somente dois ponteiros e um valor booleano em cada nó 
para que o pai de um nó ou todos os seus filhos possam ser alcançados e identificados em tempo linear em 
relação ao número de filhos. 


Problemas 


10-1 Comparações entre listas 


Para cada um dos quatro tipos de listas na tabela a seguir, qual é o tempo de execução assintótico do pior 
caso para cada operação em conjuntos dinâmicos apresentada na lista? 


não ordenada, não ordenada, 
ordenada, simplesmente ordenada, duplamente 
simplesmente ligada duplamente ligada 
ligada ligada 


Senacu(L, 9 El IS 
IseeL 3) HE 
peLem(L, 2) 
successo(L, 3) E Il Ts 
Poll) [Do 
MM) E 
Mu) RS O 


10-2 Heaps intercaláveis com a utilização de listas ligadas 


Um heap intercalável suporta as seguintes operações: Make-Hear (que cria um heap intercalável vazio), Inserr, 
Minimum, Exrracr-Min E Union.! Mostre como implementar heaps intercaláveis com a utilização de listas ligadas 
em cada um dos casos a seguir. Procure tornar cada operação tão eficiente quanto possível. Analise o tempo 
de execução de cada operação em termos do tamanho do(s) conjunto(s) dinâmico(s) sobre o(s) qual(is) é 
realizada a operação. 


a. As listas são ordenadas. 
b. As listas são não ordenadas. 
c. As listas são não ordenadas e os conjuntos dinâmicos a serem intercalados são disjuntos. 


10-3 Busca em uma lista compacta ordenada 


O Exercício 10.3-4 perguntou como poderíamos manter uma lista de n elementos compactamente nas 
primeiras n posições de um arranjo. Suporemos que todas as chaves são distintas e que a lista compacta é 
também ordenada, isto é, chaveli] < chavelpróximo[i para todo i = 1,2, ...,n tal que próximo[i] £ nt. 
Suporemos também que temos uma variável L que contém o índice do primeiro elemento na lista. Com base 
nessas premissas, você mostrará que podemos usar o seguinte algoritmo aleatorizado para fazer uma busca na 
lista no tempo esperado ON hn): 


CompacT-LIST-SEARCH(L, n,Kk) 


1 
2: 
3 


Nono DC 


10 


i=L 
while i > NIL and chaveli] < k 


| = RANDOM (1, nn) 
if chaveli] < chavel;] and chavelj] < i 
i=j 


if chaveli] == k 
retum i 
i= próximol[i] 
ifi == NI or chaveli] > k 
return NIL 


11 else return i 


Se ignorarmos as linhas 3-7 do procedimento, teremos um algoritmo comum para busca em uma lista ligada 
ordenada, no qual o índice i aponta para cada posição da lista por vez. A busca termina assim que o índice i 
“car ” do final da lista ou assim que chaveli] > k. Neste último caso, se chaveli] = k, fica claro que 
encontramos uma chave com o valor k. Se, porém, chaveli] > k, isso significa que nunca encontraremos uma 
chave com o valor k. Todavia, se chave[i] > k, então nunca encontraremos uma chave com o valor k e, 


portanto, encerrar a busca era a coisa certa a fazer. 


As linhas 3-7 tentam saltar à frente até uma posição j escolhida aleatoriamente. Esse salto nos beneficiará se 
chavel;] for maior que chavel[i] e não maior que k; nesse caso, ; marca uma posição na lista, a qual i teria de 
alcançar durante uma busca comum na lista. Como a lista é compacta, sabemos que qualquer escolha de ; 
entre 1 e n indexa algum objeto na lista, em vez de uma lacuna na lista livre. 


Em vez de analisar o desempenho de Compacr-Lisr-SearcH diretamente, analisaremos um algoritmo relacionado, 
Compacr-List-SEarcH”, que executa dois laços separados. Esse algoritmo adota um parâmetro adicional t que 
determina um limite superior para o número de iterações do primeiro laço. 


CompacT-LIST-SEARCH'(L, n,k, t) 


Ooo NA CENA 


ana 
nho 


i=L 
forg=1tot 


| — RANDOM(1, n) 
if chaveli] < chavel;] e chavel;] < k 
i=j 
if chavel[i] = k 
return i 


while i = NIL e chaveli] < k 


1 = próximoli] 


ifi — NIL ou chavel?] > k 


return NIL 


else return i 


Para comparar a execução dos algoritmos Compacr-Lisr-SearcH(L, n, k) € Compacr-List-SearcH(L, n, k, 1), 
suponha que a sequência de inteiros retornados pelas chamadas de Ranvom(1, n) é a mesma para ambos os 
algoritmos. 


a. Suponha que Compacr-List-SearcH(L, n, k) execute t iterações do laço while das linhas 2-8. Demonstre 
que Compacr-Lisr-SearcH"(L, n, k, t) retorna a mesma resposta e que o número total de iterações de ambos 


os laços for e while dentro de Compacr-Lisr-SearcH” é pelo menos t. 


Na chamada Compacr-List-SearcH"(L, n, k, t), seja X, a variável aleatória que descreve a distância na lista 
ligada (isto é, do começo ao fim da cadeia de ponteiros próximo) da posição i até a chave desejada k, 
após t iterações do laço for das linhas 2-7. 


b. Mostre que o tempo de execução esperado de Compacr-List-SearcH"(L, n, k, t) é O(t + E[X,)). 
c. Mostre que IXIS2,.,(0-"/1). (Sugestão: Use a equação (C.25).) 

d. Mostre que >=" S""/(+D). 

e. Prove que EX < n/(t + 1). 

Mostre que Compacr-Lisr-SearcH(L, n, k, t) é executado no tempo esperado O(t + n1/t). 


Conclua que Compacr-Lisr-SrarcH é executado no tempo esperado O(Nn). 


= no 


Por que supusemos que todas as chaves são distintas em Compacr-Lisr-SearcH? Demonstre que, saltos 
aleatórios não necessariamente ajudam assintoticamente quando a lista contém valores de chave 
repetidos. 


NorTas DO CAPÍTULO 


Aho, Hopcroft e Ullman [6] e Knuth [209] são excelentes referências para estruturas de dados elementares. 
Muitos outros textos focalizam estruturas de dados básicas e também sua implementação em uma linguagem de 
programação particular. Alguns exemplos desses tipos de livros didáticos são Goodrich e Tamassia [147], Main [241], 
Shaffer [311] e Weiss [352, 353, 354]. Gomet [145] fomece dados experimentais sobre o desempenho de muitas 
operações em estruturas de dados. 

A origem de pilhas e filas como estruturas de dados em ciência da computação não é clara, visto que já existiam 
noções correspondentes em matemática e em práticas comerciais em papel antes da introdução dos computadores 
digitais. Knuth [209] cita A. M. Turing sobre o desenvolvimento de pilhas para o encadeamento de sub-rotinas em 
1947. 

Estruturas de dados baseadas em ponteiros também parecem ser uma invenção folclórica. De acordo com Knuth, 
ponteiros eram aparentemente usados nos primeiros computadores com memórias de tambor. A linguagem A-l, 
desenvolvida por G. M. Hopper em 1951, representava fórmulas algébricas como árvores binárias. Knuth credita à 
linguagem IPL-II, desenvolvida em 1956 por A. Newell, J. C. Shaw e H. A. Simon, o reconhecimento da importância e 
a promoção do uso de ponteiros. Sua linguagem IPL-III, desenvolvida em 1957, incluía operações explícitas de pilhas. 


1 Visto que definimos um heap intercalável para suportar Minimum e Extract-Min, também podemos nos referir a ele como um heap 
intercalável de mínimo. Alternativamente, se O heap suportasse Maximun e Extract-Max, ele seria um heap intercalável de máximo. 


] ] TABELAS DE ESPALHAMENTO 


Mutítas aplicações exigem um conjunto dinâmico que suporte somente as operações de dicionário Insert, SearcH € 
DeLere. Por exemplo, um compilador que traduz uma linguagem de programação mantém uma tabela de símbolos na 
qual as chaves de elementos são cadeias de caracteres arbitrários que correspondem a identificadores na linguagem. 
Uma tabela de espalhamento ou hashing é uma estrutura de dados eficaz para implementar dicionários. Embora a busca 
por um elemento em uma tabela de espalhamento possa demorar tanto quanto procurar um elemento em uma lista ligada 

o tempo O( n) no pior caso , na prática o hashing funciona extremamente bem. Sob premissas razoáveis, o tempo 
médio para pesquisar um elemento em uma tabela de espalhamento é O(1). 

Uma tabela de espalhamento generaliza a noção mais simples de um arranjo comum. O endereçamento direto em 
um arranjo comum faz uso eficiente de nossa habilidade de examinar uma posição arbitrária em um arranjo no tempo 
O(1). A Seção 11.1 discute o endereçamento direto com mais detalhes. Podemos tirar proveito do endereçamento 
direto quando temos condições de alocar um arranjo que tem uma única posição para cada chave possível. 

Quando o número de chaves realmente armazenadas é pequeno em relação ao número total de chaves possíveis, 
as tabelas de espalhamento se tornam uma alternativa eficaz para endereçar diretamente um arranjo, já que normalmente 
uma tabela de espalhamento utiliza um arranjo de tamanho proporcional ao número de chaves realmente armazenadas. 
Em vez de usar a chave diretamente como um índice de arranjo, o índice de arranjo é computado a partir da chave. A 
Seção 11.2 apresenta as principais ideias, focalizando o “encadeamento” como um modo de tratar “colisões”, nas quais 
mais de uma chave é mapeada para o mesmo índice de arranjo. A Seção 11.3 descreve como podemos computar os 
índices de arranjos a partir das chaves com o uso de funções hash. Apresentamos e analisamos diversas variações 
sobre o tema básico. A Seção 11.4 examina o “endereçamento aberto”, que é um outro modo de lidar com colisões. A 
conclusão é que o hash é uma técnica extremamente eficaz e prática: as operações básicas de dicionário exigem apenas 
o tempo O(1) em média. A Seção 11.5 explica como o “hashing perfeito” pode suportar buscas no tempo do pior caso 
O(1), quando o conjunto de chaves que está sendo armazenado é estático (isto é, quando o conjunto de chaves nunca 
muda uma vez armazenado). 


11.1 TagerAs DE ENDEREÇO DIRETO 


O endereçamento direto é uma técnica simples que funciona bem quando o universo U de chaves é razoavelmente 
pequeno. Suponha que uma aplicação necessite de um conjunto dinâmico no qual cada elemento tem uma chave 
extraída do universo U = (0, 1,...,m — 1), onde m não é muito grande. Consideramos que não há dois elementos com 
a mesma chave. 

Para representar o conjunto dinâmico, usamos um arranjo, ou uma tabela de endereços diretos, denotada por 
TO ..m — 1], na qual cada posição, ou lacuna, corresponde a uma chave no universo U. A Figura 11.1 ilustra a 
abordagem; a posição k aponta para um elemento no conjunto com chave k. Se o conjunto não contém nenhum 
elemento com chave k, então T[k] = nm. 


| 


0 
chave dados satélites 


U 
(universo das chaves) Ea 
Ds 6º 2 
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Figura 11.1 Como implementar um conjunto dinâmico por uma tabela de endereços diretos 7. Cada chave no universo U= (0, 1,...,9) 
corresponde a um índice na tabela. O conjunto K = (2,3,5, 8) de chaves reais determina as posições na tabela que contêm ponteiros 
para elementos. As outras posições, sombreadas em tom mais escuro, contêmsi. 


A implementação das operações de dicionário é trivial. 


DrrecT-ADDRESS-SEARCH(T, k) 
1 return TIk])=x 


DrrEecT-ADDRESS-INSERT(T, x) 
1 Tlkcdavel=E 


DrrecT-ADDRESS-DELETE(T, x) 
1 TIx.chave] = NIL 


Cada uma dessas operações leva somente o tempo O(1). 

Em algumas aplicações, a própria tabela de endereços diretos pode conter os elementos do conjunto dinâmico. 
Isto é, em vez de armazenar a chave e os dados satélites de um elemento em um objeto externo à tabela de endereços 
diretos, com um ponteiro de uma posição na tabela até o objeto, podemos armazenar o objeto na própria posição e, 
portanto, economizar espaço. Usaríamos uma chave especial dentro de um objeto para indicar uma lacuna. Além disso, 
muitas vezes, é desnecessário armazenar a chave do objeto, já que, se temos o índice de um objeto na tabela, temos 
sua chave. Entretanto, se as chaves não forem armazenadas, devemos ter algum modo de saber se a posição está vazia. 


Exercícios 


11.1-1 Suponha que um conjunto dinâmico S seja representado por uma tabela de endereços diretos T de 
comprimento m. Descreva um procedimento que determine o elemento máximo de S. Qual é o desempenho 
do pior caso do seu procedimento? 


11.1-2 Um vetor de bits é simplesmente um arranjo de bits (Os e 1s). Um vetor de bits de comprimento m ocupa um 
espaço muito menor que um arranjo de m ponteiros. Descreva como usar um vetor de bits para representar 
um conjunto dinâmico de elementos distintos sem dados satélites. Operações de dicionário devem ser 
executadas no tempo O(1). 


11.1-3 Sugira como implementar uma tabela de endereços diretos na qual as chaves de elementos armazenados não 
precisem ser distintas e os elementos possam ter dados satélites. Todas as três operações de dicionário 
(Insert, DeLeTE E SearcH) devem ser executadas no tempo O(1). (Não esqueça que Dezere adota como 
argumento um ponteiro para um objeto a ser eliminado, não uma chave.) 


11.1-4 X Desejamos implementar um dicionário usando endereçamento direto para um arranjo enorme. No início, as 
entradas do arranjo podem conter lixo, e inicializar o arranjo inteiro é impraticável devido ao seu tamanho. 
Descreva um esquema para implementar um dicionário de endereço direto para um arranjo enorme. Cada 
objeto armazenado deve utilizar espaço O(1); as operações Searcm, Inserre DeLere devem demorar tempo 
O(1) cada uma e a inicialização da estrutura de dados deve demorar o tempo O(1). (Sugestão: Use um 
arranjo adicional tratado de certo modo como uma pilha cujo tamanho é o número de chaves realmente 
armazenadas no dicionário, para ajudar a determinar se uma dada entrada no arranjo enorme é válida ou não.) 


11.2 TABELAS DE ESPALHAMENTO 


O aspecto negativo do endereçamento direto é óbvio: se o universo U é grande, armazenar uma tabela T de 
tamanho |U] pode ser impraticável ou mesmo impossível, dada a memória disponível em um computador típico. Além 
disso, o conjunto K de chaves realmente armazenadas pode ser tão pequeno em relação a U que grande parte do 
espaço alocado para T seria desperdiçada. 

Quando o conjunto K de chaves armazenadas em um dicionário é muito menor que o universo U de todas as 
chaves possíveis, uma tabela de espalhamento requer armazenamento muito menor que uma tabela de endereços 
diretos. Especificamente, podemos reduzir o requisito de armazenamento a (|K|) e ao mesmo tempo manter o benefício 
de procurar um elemento na tabela ainda no tempo O(1). A pegada é que esse limite é para o caso do tempo médio, 
enquanto no caso do endereçamento direto ele vale para o tempo do pior caso. 

Com endereçamento direto, um elemento com a chave k é armazenado na posição k. Com hash, esse elemento é 
armazenado na posição A(k); isto é, usamos uma função hash h para calcular a posição pela chave k. Aqui, h mapeia 
o universo U de chaves para as posições de uma tabela de espalhamento TJO ..m — 1]: 


h:U>(0,1,...,m-—1, 


onde o tamanho m da tabela de espalhamento normalmente é muito menor que |U]. Dizemos que um elemento com a 
chave k se espalha (hashes) até a posição A(k); dizemos também que A(k) é o valor hash da chave k. A Figura 11.2 
ilustra a ideia básica. A função hash reduz a faixa de índices do arranjo e, consequentemente, o tamanho do arranjo. Em 
vez de ter tamanho [U!, o arranjo pode ter tamanho 7. 

Porém há um revés: após o hash, duas chaves podem ser mapeadas para a mesma posição. Chamamos essa 
situação de colisão. Felizmente, existem técnicas eficazes para resolver o conflito criado por colisões. 

É claro que a solução ideal seria evitar por completo as colisões. Poderíamos tentar alcançar essa meta escolhendo 
uma função hash adequada h. Uma ideia é fazer h parecer “aleatória”, evitando assim as colisões ou ao menos 
minimizando seu número. A expressão “to hash”, em inglês, que evoca imagens de misturas e retalhamentos aleatórios, 
capta o espírito dessa abordagem. (É claro que uma função hash A deve ser determinística, no sentido de que uma dada 
entrada k sempre deve produzir a mesma saída A(k).) Porém, como [U| > m, devem existir no mínimo duas chaves que 
têm o mesmo valor hash; portanto, evitar totalmente as colisões é impossível. Assim, embora uma função hash bem 
projetada e de aparência “aleatória” possa minimizar o número de colisões, ainda precisamos de um método para 
resolver as colisões que ocorrerem. 

O restante desta seção apresenta a técnica mais simples para resolução de colisões, denominada encadeamento. A 
Seção 11.4 apresenta um método alternativo para resolver colisões, denominado endereçamento aberto. 
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Figura 11.2 Utilização de uma função hash h para mapear chaves para posições de uma tabela de espalhamento. Como são mapeadas 
para a mesma posição, as chaves k,e k, colidem. 


Resolução de colisões por encadeamento 


No encadeamento, todos os elementos resultantes do hash vão para a mesma posição em uma lista ligada, como 
mostra a Figura 11.3. A posição j contém um ponteiro para o início da lista de todos os elementos armazenados que, 
após o hash, foram para j: se não houver nenhum desses elementos, a posição j contémr. 

As operações de dicionário em uma tabela de espalhamento 7 são fáceis de implementar quando as colisões são 
resolvidas por encadeamento. 


CHAINED-HAsH-INSERT(T, x) 

1 insere x no início da lista T[h(x.chave)] 
CHAINED-HAsH-SEARCH(T, k) 

1 procura um elemento com a chave k na lista T[h(k)] 


CHAINED-HAsH-DELETE(T, x) 
1 elimina x da lista T[h(x.chave)] 
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(universo das chaves) 
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Figura 11.3 Resolução de colisão por encadeamento. Cada posição T; da tabela de espalhamento contém uma lista ligada de todas as 
chaves cujo valor hash é j. Por exemplo, A(k, )=A(k,) e A(ks )=h(k, )=h(k,). A lista ligada pode ser simplesmente ligada ou 
duplamente ligada; aqui ela é mostrada como duplamente ligada porque assim a eliminação é mais rápida. 


O tempo de execução do pior caso para inserção é O(1). O procedimento de inserção é rápido em parte porque 
supõe que o elemento x que está sendo inserido ainda não está presente na tabela ; se necessário, podemos verificar 
essa premissa (a custo adicional) procurando um elemento cuja chave é x.chave antes da inserção. Para busca, o 
tempo de execução do pior caso é proporcional ao comprimento da lista; analisaremos essa operação mais atentamente 
em seguida. Podemos eliminar um elemento x no tempo O(1) se as listas forem duplamente ligadas, como mostra a 
Figura 11.3. (Observe que cHaieD-HAsH-DELETE toma como entrada um elemento x e não sua chave k, de modo que não 
temos de procurar x antes. Se a tabela de espalhamento suportar eliminação, então suas listas ligadas devem ser 
duplamente ligadas para podermos eliminar um item rapidamente. Se as listas forem apenas simplesmente ligadas, para 
eliminar o elemento x, em primeiro lugar teríamos de encontrar x na lista T[h(x.chave)| para podermos atualizar o 
próximo atributo do predecessor de x. Com listas simplesmente ligadas, a eliminação e a busca teriam os mesmos 
tempos de execução assintóticos.) 


Análise do hash com encadeamento 


Como é o desempenho do hashing com encadeamento? Em particular, quanto tempo ele leva para procurar um 
elemento com uma determinada chave? 

Dada uma tabela de espalhamento T com m posições que armazena n elementos, definimos o fator de carga a 
para T como n/m, isto é, o número médio de elementos armazenados em uma cadeia. Nossa análise será em termos de 
o, que pode ser menor, igual ou maior que 1. 

O comportamento do pior caso do hashing com encadeamento é terrível: todas as n chaves vão para a mesma 
posição após o hashing, criando uma lista de comprimento n. Portanto, o tempo do pior caso para a busca é (n) mais 
o tempo necessário para calcular a função hash — não é melhor do que seria se usássemos uma única lista ligada para 
todos os elementos. É claro que não usamos as tabelas de espalhamento por seu desempenho no pior caso. (Todavia, o 
hashing perfeito, descrito na Seção 11.5, realmente oferece bom desempenho no pior caso quando o conjunto de 
chaves é estático.) 

O desempenho do hashing para o caso médio depende de como a finção hash h distribui o conjunto de chaves a 
armazenar entre as m posições, em média. A Seção 11.3 discute essas questões, mas, por enquanto, devemos 
considerar que qualquer elemento dado tem igual probabilidade de passar para qualquer das m posições após o 
hashing, independentemente do lugar para onde qualquer outro elemento tenha passado após essa operação. 
Denominamos essa premissa hashing uniforme simples. 

Paraj =0, 1,...,m — 1, vamos denotar o comprimento da lista 7[;] por n,, de modo que 


n=n+n,+..+n (11.1) 


m-1º 


e o valor esperado de n, é E[n,] = a = n/m. 

Supomos que o tempo O(1) é suficiente para calcular o valor hash A(k), de modo que o tempo requerido para 
procurar um elemento com chave k depende linearmente do comprimento n,(*) da lista T[A(k)]. Deixando de lado o 
tempo O(1) necessário para calcular a função hash e acessar a posição A(k), vamos considerar o número esperado de 
elementos examinados pelo algoritmo de busca, isto é, o número de elementos na lista T[h(k)] que o algoritmo verifica 
para ver se qualquer deles tem uma chave igual a k. Consideraremos dois casos. No primeiro, a busca não é bem- 
sucedida: nenhum elemento na tabela tem a chave k. No segundo caso, a busca consegue encontrar um elemento com 
chave k. 


Teorema 11.1 


Em uma tabela de espalhamento na qual as colisões são resolvidas por encadeamento, uma busca mal sucedida 
demora o tempo do caso médio (1 + a), sob a hipótese de hashing uniforme simples. 


Prova Sob a hipótese de hashing uniforme simples, qualquer chave k ainda não armazenada na tabela tem igual 
probabilidade de ocupar qualquer das m posições após o hash. O tempo esperado para procurar sem sucesso uma 
chave k é o tempo esperado para pesquisar até o fim da lista T[A(k)], que tem o comprimento esperado El[n,q)] = a. 
Assim, o número esperado de elementos examinados em uma busca mal sucedida é a, e o tempo total exigido (incluindo 
o tempo para se calcular A(k)) é (1 + o). 


A situação para uma busca bem-sucedida é ligeiramente diferente, já que a probabilidade de cada lista ser pesquisada 
não é a mesma. Em vez disso, a probabilidade de uma lista ser pesquisada é proporcional ao número de elementos que 
ela contém. Todavia, o tempo de busca esperado ainda é (1 + o). 


Teorema 11.2 


Em uma tabela de espalhamento na qual as colisões são resolvidas por encadeamento, uma busca bem-sucedida 
demora o tempo do caso médio (1 + a) se considerarmos hashing uniforme simples. 


Prova Supomos que o elemento que está sendo pesquisado tem igual probabilidade de ser qualquer dos n elementos 
armazenados na tabela. O número de elementos examinados durante uma busca bem-sucedida para um elemento x é 
uma unidade maior que o número de elementos que aparecem antes de x na lista de x. Como elementos novos são 
colocados à frente na lista, os elementos antes de x na lista foram todos inseridos após x ser inserido. Para determinar o 
número esperado de elementos examinados, tomamos a média, sobre os n elementos x na tabela, de 1 mais o número 
esperado de elementos adicionados à lista de x depois que x foi adicionado à lista. Seja x, o i-ésimo elemento inserido 
na tabela, para i = 1,2, ...,n, e seja k,=x,.chave. Para chaves k, e Ki definimos a variável aleatória indicadora X,=1 
tCk;) = A(k,)3. Sob a hipótese de hashing uniforme simples, temos Pr th(k;) = A(k;); = 1/m e, então, pelo Lema 5.1, 
ELX,] = 1/m. Assim, o número esperado de elementos examinados em uma busca bem-sucedida é 
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Assim, o tempo total exigido para uma busca bem-sucedida (incluindo o tempo para calcular a função hash) é (2 + a/2 
—o2n)=(1+o0). 


O que significa essa análise? Se o número de posições da tabela de espalhamento é no mínimo proporcional ao 
número de elementos na tabela, temos n = O(m) e, consequentemente, a = n/m = O(m)/m = O(1). Assim, a busca 


demora tempo constante na média. Visto que a inserção demora o tempo O(1) no pior caso e a eliminação demora o 
tempo O(1) no pior caso quando as listas são duplamente ligadas, podemos suportar todas as operações de dicionário 
no tempo O(1) na média. 


Exercícios 


11.2-1 Suponha que utilizamos uma função hash h para efetuar o hashing de n chaves distintas em um arranjo T de 
comprimento m. Considerando hashing uniforme simples, qual é o número esperado de colisões? Mais 
precisamente, qual é a cardinalidade esperada de (fk, 1) :k le A(k) = h(D)? 


11.2-2 Demonstre o que acontece quando inserimos as chaves 5, 28, 19, 15, 20, 33, 12, 17, 10 em uma tabela de 
espalhamento com colisões resolvidas por encadeamento. Considere uma tabela com nove posições e a 
função hash A(k) = k mod 9. 


11.2-3 O professor Marky apresenta a hipótese de que podemos obter ganhos substanciais de desempenho 
modificando o esquema de encadeamento para manter cada lista em sequência ordenada. Como a 
modificação do professor afeta o tempo de execução para pesquisas bem-sucedidas, mal sucedidas, inserções 
e eliminações? 


11.2-4 Sugira como alocar e desalocar armazenamento para elementos dentro da própria tabela de espalhamento 
ligando todas as posições não utilizadas em uma lista livre. Suponha que uma posição pode armazenar um 
sinalizador e um elemento mais um ponteiro ou dois ponteiros. Todas as operações de dicionário e de lista 
livre devem ser executadas no tempo esperado O(1). A lista livre precisa ser duplamente ligada ou uma lista 
livre simplesmente ligada é suficiente? 


11.2-5 Suponha que estejamos armazenando um conjunto de n chaves em uma tabela de espalhamento de tamanho 
m. Mostre que, se as chaves forem extraídas de um universo U com |U| > nm, então U tem um subconjunto 
de tamanho n composto por chaves que passam todas para uma mesma posição após o hashing, de modo 
que o tempo de busca do pior caso para o hashing com encadeamento é (n). 


11.2-6 Suponha que armazenemos n chaves em uma tabela de espalhamento de tamanho m, com colisões resolvidas 
por encadeamento e que conhecemos o comprimento de cada cadeia, incluindo o comprimento L da cadeia 
mais longa. Descreva um procedimento que seleciona uma chave uniformemente ao acaso entre as chaves na 
tabela de espalhamento e a retorna no tempo esperado O(L - (1 + 1/0)). 


11.3 Funções HAasH 


Nesta seção, discutiremos algumas questões relacionadas ao projeto de boas funções hash e depois 
apresentaremos três esquemas para sua criação. Dois dos esquemas, hash por divisão e hash por multiplicação, são 
heurísticos por natureza, enquanto o terceiro esquema, hash universal, utiliza a aleatorização para oferecer um 
desempenho que podemos provar que é bom. 


O que faz uma boa função hash ? 


Uma boa função hash satisfaz (aproximadamente) a premissa do hashing uniforme simples: cada chave tem igual 
probabilidade de passar para qualquer das m posições por uma operação de hash, independentemente da posição que 
qualquer outra chave ocupou após o hash. Infelizmente, normalmente não temos nenhum meio de verificar essa 
condição, já que raramente conhecemos a distribuição de probabilidade da qual as chaves são extraídas. Além disso, as 


chaves poderiam não ser extraídas iandependentemente. Ocasionalmente conhecemos a distribuição. Por exemplo, se 
soubermos que as chaves são números reais aleatórios k, independente e uniformemente distribuídos na faixa O < k <1, 
então a função hash 


h(k) = km 


satisfaz a condição de hashing uniforme simples. 

Na prática, muitas vezes, podemos usar técnicas heurísticas para criar uma função hash que funciona bem. 
Informações qualitativas sobre a distribuição de chaves podem ser úteis nesse processo de projeto. Por exemplo, 
considere a tabela de símbolos de um compilador, na qual as chaves são cadeias de caracteres que representam 
identificadores em um programa. Símbolos estreitamente relacionados, como pt e pts, frequentemente ocorrem no 
mesmo programa. Uma boa função hash minimizaria a chance de tais variações passarem para a mesma posição após o 
hashing. 

Uma boa abordagem deriva o valor hash de um modo que esperamos seja independente de quaisquer padrões que 
possam existir nos dados. Por exemplo, o “método de divisão” (discutido na Seção 11.3.1) calcula o valor hash como o 
resto quando a chave é dividida por um número primo especificado. Esse método frequentemente dá bons resultados, 
desde que que escolhamos um número primo que não esteja relacionado com quaisquer padrões na distribuição de 
chaves. 

Finalmente, observamos que algumas aplicações de funções hash poderiam exigir propriedades mais fortes que as 
oferecidas pelo hashing uniforme simples. Por exemplo, poderíamos querer que chaves que de certo modo são mais 
“próximas” derivem valores hash muito afastados um do outro. (Essa propriedade é especialmente desejável quando 
estamos usando sondagem linear, definida na Seção 11.4.) O hash universal, descrito na Seção 11.3.3, muitas vezes, 
fomece as propriedades desejadas. 


Interpretação de chaves como números naturais 


A maior parte das funções hash considera como universo de chaves o conjunto = (0, 1,2, ...; de números 
naturais. Assim, se as chaves não forem números naturais, temos de encontrar um modo de interpretá-las como 
números naturais. Por exemplo, podemos interpretar uma cadeia de caracteres como um inteiro expresso em uma 
notação de raiz adequada. Assim, poderíamos interpretar o identificador pt como o par de inteiros decimais (112, 116), 
já que p = 112 et = 116 no conjunto de caracteres ASCII; então, expresso como um inteiro de raiz 128, pt se torna 
(112 - 128) + 116 = 14.452. No contexto de uma determmada aplicação, normalmente podemos elaborar algum 
método para interpretar cada chave como um número natural (possivelmente grande). No que vem a seguir, supomos 
que as chaves são números naturais. 


11.3.1 O MÉTODO DE DIVISÃO 


No método de divisão para criar funções hash, mapeamos uma chave k para uma de m posições, tomando o 
resto da divisão de k por m. Isto é, a função hash é 


h(k) = k mod m . 


Por exemplo, se a tabela de espalhamento tem tamanho m = 12 e a chave é k = 100, então A(k) = 4. Visto que exige 
uma única operação de divisão, o hash por divisão é bastante rápido. 

Quando utilizamos o método de divisão, em geral evitamos certos valores de m. Por exemplo, m não deve ser uma 
potência de 2, já que, se m = 2», então A(k) será somente o grupo de p bits de ordem mais baixa de k. A menos que 
saibamos que todos os padrões de p bits de ordem baixa são igualmente prováveis, é melhor garantir que em nosso 
projeto a função hash dependa de todos os bits da chave. Como o Exercício 11.3-3 lhe pede para mostrar, escolher m 
= 2p — 1 quando k é uma cadeia de caracteres interpretada em raiz 2» pode ser uma escolha ruim porque permutar os 
caracteres de k não altera seu valor hash. 


Muítas vezes, um primo não muito próximo de uma potência exata de 2 é uma boa escolha para m. Por exemplo, 
suponha que desejemos alocar uma tabela de espalhamento, com colisões resolvidas por encadeamento, para conter 
aproximadamente n = 2.000 cadeias de caracteres, onde um caractere tem oito bits. Não nos importamos de examinar 
uma média de três elementos em uma busca mal sucedida e, assim, alocamos uma tabela de espalhamento de tamanho 
m >= 701. Pudemos escolher o número 701 porque é um primo próximo de 2.000/3, mas não próximo de nenhuma 
potência de 2. Tratando cada chave k como um inteiro, nossa função hash seria 


h(k) = k mod 701. 


11.3.2 O MÉTODO DE MULTIPLICAÇÃO 


O método de multiplicação para criar funções hash funciona em duas etapas. Primeiro, multiplicamos a chave k 
por uma constante 4 na faixa O < 4 < e extraímos a parte fracionária de k4. Em seguida, multiplicamos esse valor por 
m e tomamos o piso do resultado. Resumindo, a finção hash é 


h(k) = Lm(k A mod 1), 


onde “k 4 mod 1” significa a parte fracionária de KA, isto é, KA — KA. 

Uma vantagem do método de multiplicação é que o valor de m não é crítico. Em geral, nós o escolhemos de modo 
a ser uma potência de 2 (m = 2» para algum inteiro p) já que podemos implementar facilmente a função na maioria dos 
computadores do modo descrito a seguir. Suponha que o tamanho da palavra da máquina seja w bits e que k caiba em 
uma única palavra. Restringimos 4 a ser uma fração da forma s/2w, onde s é um inteiro na faixa O <s < 2w. Referindo- 
nos à Figura 11.4, primeiro multiplicamos k pelo inteiro s = 4 - 2w de w bits. O resultado é um valor de 2w bits 7,2w + 
ro onde r, é a palavra de ordem alta do produto e r, é a palavra de ordem baixa do produto. O valor hash de p bits 
desejado consiste nos p bits mais significativos de rp. 

Embora esse método funcione com qualquer valor da constante 4, funciona melhor com alguns valores que com 
outros. A escolha ótima depende das características dos dados aos quais o hash está sendo aplicado. Knuth [185] 
sugere que 


Am(N5-1)/2=0,6180339887... (11.2) 


tem boa possibilidade de funcionar razoavelmente bem. 

Como exemplo, suponha que tenhamos k = 123456, p = 14, m = 214= 16384 e w = 32. Adaptando a sugestão 
de Knuth, escolhemos 4 como a fração da forma s/232 mais próxima a (N5-D/ 2, isto é, 4 = 2654435769/232. Então, 
k xs = 327706022297664 = (76300 - 232) + 17612864 e, assim, r, = 76300 e r; = 17612864. Os 14 bits mais 
significativos de r, formam o valor A(k) = 67. 
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Figura 11.4 O método de multiplicação para hash. A representação de w bits da chave k é multiplicada pelo valor de w bits s = 4 x 2w, 
onde O<4<J1 éuma constante adequada. Os p bits de ordemmais alta da metade inferior de w bits do produto formam o valor hash 
desejado h(k). 


11.3.3 * HASHING UNIVERSAL 


Se um adversário malicioso escolher as chaves às quais o hashing deverá ser aplicado por alguma função hash fixa, 
ele pode escolherá n chaves que passem para a mesma posição após o hash, o que resulta em um tempo médio de 
recuperação igual a Q(n). Qualquer função hash fixa é vulnerável a esse terrível comportamento do pior caso; a única 
maneira eficaz de melhorar a situação é escolher a função hash aleatoriamente, de um modo que seja independente 
das chaves que realmente serão armazenadas. Essa abordagem, denominada hashing universal, pode resultar em um 
desempenho demonstravelmente bom na média, não importando as chaves escolhidas pelo adversário. 

No hashing universal, no início da execução selecionamos a função hash aleatoriamente de uma classe de finções 
cuidadosamente projetada. Como no caso do quicksort, a aleatorização garante que nenhuma entrada isolada evocará 
sempre o comportamento do pior caso. Como selecionamos a função hash aleatoriamente, o algoritmo poderá se 
comportar de modo diferente em cada execução ainda que a entrada seja a mesma, garantindo um bom desempenho 
do caso médio para qualquer entrada. Retornando ao exemplo da tabela de símbolos de um compilador, verificamos 
que agora a escolha de identificadores pelo programador não pode provocar consistentemente um desempenho ruim do 
hash. O desempenho ruim ocorre apenas quando o compilador escolhe uma função hash aleatória que faz com que o 
resultado do hash aplicado ao conjunto de identificadores seja ruim, mas a probabilidade de ocorrer essa situação é 
pequena, e é a mesma para qualquer conjunto de identificadores do mesmo tamanho. 

Seja uma coleção finita de funções hash que mapeiam um dado universo U de chaves para a faixa (0, 1,...,m — 
1!. Dizemos que ela é universal se, para cada par de chaves distintas k, / &E U, o número de funções hash h E para 
as quais A(k) = A(/) é no máximo ||/m. Em outras palavras, com uma função hash escolhida aleatoriamente de , a chance 
de uma colisão entre chaves distintas k e / não é maior que a chance 1/m de uma colisão se A(k) e h(l) fossem 
escolhidas aleatória e independentemente do conjunto (0, 1,...,m — 13. 

O teorema a seguir, mostra que uma classe universal de funções hash oferece bom comportamento do caso médio. 
Lembre-se de que n, denota o comprimento da lista Ti]. 


Teorema 11.3 


Suponha que uma função hash h seja escolhida aleatoriamente de uma coleção universal de finções hash e usada para 
aplicar hash às n chaves em uma tabela T de tamanho m, usando encadeamento para resolver colisões. Se a chave k 


não estiver na tabela, o comprimento esperado E[n,(k)] da lista para a quala chave k passa após aplicação do hash é 
no máximo o fator de carga a = n/m. Se a chave k estiver na tabela, o comprimento esperado E[n,(*)] da lista que 
contém a chave k é no máximo 1 + a. 


Prova Notamos que, aqui, as esperanças referem-se à escolha da função hash e não dependem de quaisquer premissas 
adotadas para a distribuição das chaves. Para cada par k e / de chaves distintas, defina a variável aleatória indicadora 
Xa = Hh(k) = A(/);. Visto que, pela definição de uma coleção de funções hash, um único par de chaves colide com 
probabilidade de no máximo 1/m, temos Pr th(k) = h(l); < 1/m. Portanto, pelo Lema 5.1, temos [X,] < 1/m. 

Em seguida, definimos para cada chave k a variável aleatória Y,, que é igual ao número de chaves diferentes de k 
que passam para a mesma posição de k após a aplicação do hash, de modo que 


da ie Ds º 
leT 
lzk 


Portanto, temos 


leT 
Izk 


E[Y,] e a 5 


> EIS] (por linearidade da esperança) 


leT 
lzk 


1 


IA 


er m 
Izk 
O restante da prova depende de a chave k estar ou não na tabela 7. 
* SekéT, então n():= Ke|fl:l€ Telzk)|=n. Assim, Eni) = Eh <nm=a. 
*  Sek € T, então, como a chave k aparece na lista TA(k) e a contagem Ynão inclui a chave k, temos nJk = Y +1 
elle Telzkj|=n-—1. Assim En ()]-EY]<(n-Dm+1I=l+a-lim<l+a. 


O corolário a seguir, diz que o hash universal nos dá a compensação desejada: agora ficou impossível um 
adversário escolher uma sequência de operações que force o tempo de execução do pior caso. Com a aleatorização 
inteligente da escolha da função hash em tempo de execução, garantimos que podemos processar toda sequência de 
operações com um bom tempo de execução do caso médio. 


Corolário 11.4 


Usando hash universal e resolução de colisão por encadeamento em uma tabela inicialmente vazia com m posições, 
tratar qualquer sequência de n operações Inserr, SearcH e Deere contendo O(m) operações Inserr demora o tempo 
esperado (n). 


Prova Como o número de inserções é O(m), temos n = O(m) e, assim, a = O(1). As operações Inserre Deere 
demoram tempo constante e, pelo Teorema 11.3, o tempo esperado para cada operação Searcu é O(1). Assim, por 
linearidade da esperança, o tempo esperado para a sequência de operações inteira é O(n). Visto que cada operação 
leva o tempo (1), decorre o limite (1). 


Projeto de uma classe universal de funções hash 


E bastante fácil projetar uma classe universal de finções hash, como um pouco de teoria dos números nos ajudará 
a demonstrar. Se você não estiver familiarizado com a teoria dos números, será bom consultar o Capítulo 31 antes. 


Começamos escolhendo um número primo p suficientemente grande para que toda chave k possível esteja no 
intervalo O a p — 1, inclusive. Seja » o conjunto (0, 1,...,p — 1; e seja» o conjunto (1, 2,...,p — 1). Visto que p é 
primo, podemos resolver equações de módulo p com os métodos dados no Capítulo 31. Como supomos que o 
tamanho do universo de chaves é maior que o número de posições na tabela de espalhamento, temos p > m. 

Agora definimos a função hash A,, para qualquer a E » e qualquer b & » usando uma transformação linear seguida 
por reduções de módulo p e, então, de módulo m: 


h,k) = ((ak + b) mod p) mod m . (11.3) 


Por exemplo, com p = 17 em = 6, temos h,,4 (8) = 5. A família de todas essas funções hash é 
Hm=hp:04€ZebeZ,.|). (11.4) 


pm 


Cada função hash h,,» mapeia » para m. Essa classe de funções hash tem a interessante propriedade de que o tamanho 
m da faixa de saída é arbitrário não necessariamente primo , uma característica que usaremos na Seção 11.5. Visto 
que temos p — 1 escolhas para a e que há p escolhas para b, a coleção »» contém p(p — 1) funções hash. 


Teorema 11.5 
A classe pm de funções hash definida pelas equações (11.3) e (11.4) é universal. 


Prova Considere duas chaves distintas k e / de », de modo que k  /. Para uma dada função hash A,, fazemos 


r = (ak + b) mod p, 
s = (al + b) mod p. 


Primeiro observamos que r £ s. Por quê? Observe que 
r-s=a(k — 1) (mod p). 


Decorre que 7 4 s porque p é primo e ambos, a e (k — 1), não são zero módulo p e, assim, seu produto também deve 
ser não zero módulo p pelo Teorema 31.6. Portanto, na computação de qualquer h,, em pm , entradas distintas k e / 
mapeiam para valores distintos 7 e s módulo p; ainda não há nenhuma colisão no “nível mod p”. Além disso, cada uma 
das p(p — 1) escolhas possíveis para o par (a, b) com a £ O produz um par resultante (r, s) diferente comr £s, já que 
podemos resolver para a e b dados r e s: 


a = ((r — s)((k — 1)! mod p)) mod p, 
b = (r— ak) mod p, 


onde ((k — /)—1 mod p) denota o inverso multiplicativo único, módulo p, de k — 1. Como existem apenas p(p — 1) pares 
(r, s) possíveis com 7 £ s, há uma correspondência de um para um entre pares (a, b) coma % O e pares (r, s) com r £ 
s. Assim, para qualquer par de entradas k e / dado, se escolhermos (a, b) uniformemente ao acaso de * x , o par 
resultante (7, s) terá igual probabilidade de ser qualquer par de valores distintos módulo p. 

Então, a probabilidade de chaves distintas k e / colidirem é igual à probabilidade de 7 = s (mod m) quando r e s 
são escolhidos aleatoriamente como valores distintos módulo p. Para um dado valor de r, dos p — 1 valores restantes 
possíveis para s, o número de valores s tais que s £r e s = 7 é no máximo 


[p/fml-1<(p+m-D/m-1 (pela desigualdade (3.6)) 
=(p-1)/m. 


A probabilidade de s colidir com r quando reduzido módulo m é no máximo ((p — D/'n)(p — D = 1/m. 
Assim, para qualquer par de valores distintos k, / E », 


hAk)=hAD)<1/m, 


de modo que pm é, de fato, universal. 


Exercícios 


11.3-1 


11.3-2 


11.3-3 


11.3-4 


11.3-5 


11.3-6 


Suponha que desejemos buscar em uma lista ligada de comprimento n, onde cada elemento contém um chave 
k juntamente com um valor hash A(k). Cada chave é uma cadeia de caracteres longa. Como poderíamos tirar 
proveito dos valores hash ao procurar na lista um elemento com uma chave específica? 


Suponha que aplicamos hash a uma cadeia de 7 caracteres em m posições, tratando-a como um número de 
raiz 128, depois usando o método de divisão. Podemos representar facilmente o número m como uma palavra 
de computador de 32 bits, mas a cadeia de r caracteres, tratada como um número de raiz 128, ocupa muitas 
palavras. Como podemos aplicar o método de divisão para calcular o valor hash da cadeia de caracteres sem 
usar mais do que um número constante de palavras de armazenamento fora da própria cadeia? 


Considere uma versão do método de divisão, na qual A(k) = k mod m, onde m = 2p — 1 e k é uma cadeia de 
caracteres interpretada em raiz 2». Mostre que, se pudermos derivar a cadeia x da cadeia y por permutação 
de seus caracteres, o hash aplicado a x e y resultará no mesmo valor para ambos. Dê exemplo de uma 
aplicação na qual essa propriedade seria indesejável em uma função hash. 


Considere uma tabela de espalhamento de tamanho m = 1.000 e uma finção hash correspondente A(k) igual a 
m (k A mod 1) para 4 = (N5-1) 2. Calcule as localizações para as quais são mapeadas as chaves 61, 62, 
63, 64 e 65. 


* Defina uma família de funções hash de um conjunto finito U para um conjunto finito B como e-universal 
se, para todos os pares de elementos distintos k e/em U, 


Pr th(k) = h(1)) < e, 


onde a probabilidade refere-se à escolha aleatória da função hash h na família H. Mostre que uma família e- 
universal de funções hash deve ter 


gi 


“ABI U 


* Seja U o conjunto de ênuplas de valores extraídos de », e seja B =», onde p é primo. Defina a função 
hash h,:U — B para b € »p para um ênupla de entrada (a,, a,, ...,a,— 1) extraída de U por 


h Maga A, Re dad! mod p, 
= 


eseja = (h,:b E p.). Demonstre que é ((n — 1)/p)-universal, de acordo com a definição de E -universal no 
Exercício 11.3-5. (Sugestão: Veja o Exercício 31.4-4.) 


11.4 ENDEREÇAMENTO ABERTO 


Em endereçamento aberto, todos os elementos ficam na própria tabela de espalhamento. Isto é, cada entrada da 
tabela contém um elemento do conjunto dinâmico ou nm. Ao procurar um elemento, examinamos sistematicamente as 
posições da tabela até encontrar o elemento desejado ou até confirmar que o elemento não está na tabela. 
Diferentemente do encadeamento, não existe nenhuma lista e nenhum elemento armazenado fora da tabela. Assim, no 
endereçamento aberto, a tabela de espalhamento pode “ficar cheia”, de tal forma que nenhuma inserção adicional pode 
ser feita; o fator de carga a nunca pode exceder 1. 

É claro que poderíamos armazenar as listas ligadas para encadeamento no interior da tabela de espalhamento, nas 
posições não utilizadas de outro modo (veja o Exercício 11.2-4), mas a vantagem do endereçamento aberto é que ele 
evita por completo os ponteiros. Em vez de seguir ponteiros, calculamos a sequência de posições a examinar. A 
memória extra liberada por não armazenarmos ponteiros fornece à tabela de espalhamento um número maior de 
posições para a mesma quantidade de memória, o que produz potencialmente menor número de colisões e recuperação 
mais rápida. 

Para executar inserção usando endereçamento aberto, examinamos sucessivamente, ou sondamos, a tabela de 
espalhamento até encontrar uma posição vazia na qual inserir a chave. Em vez de ser fixa na ordem 0, 1,..,m — 1 (o 
que exige o tempo de busca Q(n)), a sequência de posições sondadas depende da chave que está sendo inserida. 
Para determinar quais serão as posições a sondar, estendemos a função hash para incluir o número da sondagem (a 
partir de 0) como uma segunda entrada. Assim, a função hash se torna 


h:Ux(0,1,..,m-1)>/0,1,..,m-—1). 
Com endereçamento aberto, exigimos que, para toda chave k, a sequência de sondagem 
(h(k, 0), h(k, 1),. . .,h(k;m — 1)) 


seja uma permutação de (0, 1, ...,m — 1), de modo que toda posição da tabela de espalhamento seja eventualmente 
considerada uma posição para uma nova chave, à medida que a tabela é preenchida. No pseudocódigo a seguir, 
supomos que os elementos na tabela de espalhamento T são chaves sem informações satélites; a chave k é idêntica ao 
elemento que contém a chave k. Cada posição contém uma chave ou nr (se a posição estiver vazia). O procedimento 
Hasu-SearcH tem como entrada uma tabela de espalhamento T e uma chave k. Devolve o número da posição onde 
armazena chave k ou sinaliza um erro porque a tabela de espalhamento já está cheia. 


HasH-INsERT(T, k) 
12=0 

2 repeat j = h(k,1) 

3 1É TI/] == NHL 


4 TU] = 

à) return / 

6 elsei=i+1 
7 untilz== 


8 error “estouro da tabela” 


O algoritmo que procura a chave k sonda a mesma sequência de posições que o algoritmo de inserção examinou 
quando a chave k foi mserida. Portanto, a busca pode terminar (sem sucesso) quando encontra uma posição vazia, já 
que k teria sido inserido ali e não mais adiante em sua sequência de sondagem. (Esse argumento supõe que não há 
eliminação de chaves na tabela de espalhamento.) O procedimento Hasn-Searcn tem como entrada uma tabela de 
espalhamento T e um chave k, e devolve j se verificar que a posição j contém a chave k, ou nm se a chave k não estiver 
presente na tabela 7. 


HasH-SEARCH(T, k) 


120 

2 repeat 

2 f=kt) 

+ E (== 

> return j 

6 i=1+4+1 

7 until Tl] == NL OoUui==mM 


8 return NIL 


Eliminar algo em uma tabela de espalhamento de endereço aberto é difícil Quando eliminamos uma chave da 
posição i, não podemos simplesmente marcar essa posição como vazia, nela armazenando nr. Se fizéssemos isso, 
poderíamos não conseguir recuperar nenhuma chave k em cuja inserção tivéssemos sondado a posição i e verificado 
que ela estava ocupada. Podemos resolver esse problema marcando a posição nela armazenando o valor especial 
DELETED EM vez de ni. Então, modificariamos o procedimento Hasu-Inserr para tratar tal posição como se ela estivesse 
vazia, de modo a podermos inserir uma nova chave. Não é necessário modificar Hasn-Searcn, já que ele passará por 
valores peLETED enquanto estiver pesquisando. Entretanto, quando usamos o valor especial veLeTED, OS tempos de busca 
não dependem mais do fator de carga a. Por essa razão, o encadeamento é mais comumente selecionado como uma 
técnica de resolução de colisões quando precisamos eliminar chaves. 

Em nossa análise, consideramos hash uniforme: a sequência de sondagem de cada chave tem igual probabilidade 
de ser qualquer uma das m! permutações de (0, 1,....,m — 1). O hash uniforme generaliza a noção de hash uniforme 
simples definida anteriormente para uma função hash que produz não apenas um número único, mas toda uma sequência 
de sondagem. Contudo, o verdadeiro hash uniforme é difícil de implementar e, na prática, são usadas aproximações 
adequadas (como o hash duplo, definido a seguir). 

Examinaremos três técnicas comumente utilizadas para calcular as sequências de sondagem exigidas para o 
endereçamento aberto: sondagem linear, sondagem quadrática e hash duplo. Todas essas técnicas garantem que (A(k, 
0), A(k, 1), ..., A(k, m — 1)) é uma permutação de (0, 1, ..., m — 1) para cada chave k. Porém, nenhuma delas cumpre 
o requisito do hash uniforme, já que nenhuma consegue gerar mais de m, sequências de sondagem diferentes (em vez 
das m! que o hash uniforme exige). O hash duplo tem o maior número de sequências de sondagem e, como seria de 
esperar, parece dar os melhores resultados. 


Sondagem linear 


Dada uma função hash comum Ah”: U — 10, 1,...,m — 1!, à qual nos referimos como uma função hash auxiliar, 
o método de sondagem linear usa a função hash 


h(k à) = (h'(k) + à) mod m 


parai=0,1,...,m — 1. Dada a chave k, primeiro sondamos TTh”(k)], isto é, a posição dada pela função hash auxiliar. 
Em seguida, sondamos a posição T[h'(k) + 1], e assim por diante até a posição T[m — 1]. Depois, voltamos às 


posições 770], 771], ..., até finalmente sondarmos a posição T[h”(k) — 1]. Como a sondagem inicial determina toda a 
sequência de sondagem, há somente m sequências de sondagem distintas. 

A sondagem linear é fácil de implementar, mas sofre de um problema conhecido como agrupamento primário. 
Longas sequências de posições ocupadas se acumulam, aumentando o tempo médio de busca. Os agrupamentos 
surgem porque uma posição vazia precedida por i posições cheias é preenchida em seguida com probabilidade (i + 
D/m. Longas sequências de posições ocupadas tendem a ficar mais longas, e o tempo médio de busca aumenta. 


Sondagem quadrática 


A sondagem quadrática utiliza uma função hash da forma 
h(k, à) = (h'(k) + ci + ci?) mod m, (11.5) 


onde h” é uma função hash auxiliar, c, e c, são constantes positivas auxiliares e i = 0, 1,...,m — 1. A posição inicial 
sondada é TTh"(k)]; posições posteriores sondadas são deslocadas por quantidades que dependem de modo 
quadrático do número da sondagem i. Esse método funciona muito melhor que a sondagem linear mas, para fazer pleno 
uso da tabela de espalhamento, os valores de c,, c, e m são restritos. O Problema 11-3 mostra um modo de selecionar 
esses parâmetros. Além disso, se duas chaves têm a mesma posição inicial de sondagem, então suas sequências de 
sondagem são iguais, já que A(k,, 0) = A(k,, 0) implica A(k,, i) = A(k», i). Essa propriedade conduz a uma forma mais 
branda de agrupamento, denominada agrupamento secundário. Como na sondagem linear, a sondagem inicial 
determina a sequência inteira; assim, apenas m sequências de sondagem distintas são utilizadas. 


Hash duplo 


O hash duplo oferece um dos melhores métodos disponíveis para endereçamento aberto porque as permutações 
produzidas têm muitas das características de permutações escolhidas aleatoriamente. O hash duplo usa uma finção 
hash da forma 


h(k, à) = (h (k) + ih, (K)) mod m , 


onde h, e A, são funções hash auxiliares. A sondagem inicial vai à posição T[h,(k)]; posições de sondagem sucessivas 
são deslocadas em relação às posições anteriores pela quantidade A,(k), módulo m. Assim, diferentemente do caso de 
sondagem linear ou quadrática, aqui a sequência de sondagem depende da chave k de duas maneiras, já que a posição 
inicial de sondagem, o deslocamento, ou ambos podem variar. A Figura 11.5 dá um exemplo de mserção por hash 
duplo. 

O valor A(k) e o tamanho m da tabela de espalhamento devem ser primos entre si para que a tabela de 
espalhamento inteira seja examinada (veja o Exercício 11.4-4). Uma forma conveniente de assegurar essa condição é 
que m seja uma potência de 2 e projetar A, de modo que sempre retorne um número ímpar. Outra maneira é que m seja 
primo e projetar A, de modo que sempre retorne um inteiro positivo menor que m. Por exemplo, poderíamos escolher 
m primo e fazer 


h(k) =kmod m, 
h(k) = 1 + (kmod nm” , 
onde o valor de m escolhido é ligeiramente menor que m (digamos, m — 1). Por exemplo, se k = 123456,m = 70l em 


= 700, temos A,(k) = 80 e A,(k) = 257; assim, primeiro sondamos a posição 80 e depois examinamos cada 257a 
posição (módulo m) até encontrarmos a chave ou termos examinado todas as posições. 


Quando m é primo ou uma potência de 2, o hash duplo é melhor do que a sondagem linear ou quadrática no 
sentido de que são usadas (m,) sequências de sondagem em vez de (m), já que cada par (A (k), A(k)) possível gera 
uma sequência de sondagem distinta. O resultado é que, para tais valores de m, o desempenho do hash duplo parece 
ficar bem próximo do esquema “ideal” do hash uniforme. 

Embora, em princípio, outros valores de m que não sejam primos nem potências de 2 poderiam ser utilizados com 
hash duplo, na prática torna-se mais difícil gerar A,(k) eficientemente de um modo que garanta que esse valor e m são 
primos entre si, em parte porque a densidade relativa (m)/m de tais números pode ser pequena (veja equação (31.24)). 


Análise de hash de endereço aberto 


Como fizemos na análise do encadeamento, expressamos nossa análise do endereçamento aberto em termos do 
fator de carga a = n/m da tabela de espalhamento. É claro que no endereçamento aberto temos no máximo um 
elemento por posição e, portanto, n <m, o que implica o. < 1. 
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Figura 11.5 Inserção por hash duplo. Aqui temos uma tabela de espalhamento de tamanho 13 comA, (k) =k mod 13 e A, (k)=1 +(k 
mod 11). Como 14= 1 (mod 13) e 14=3 (mod 1), inserimos a chave 14na posição vazia 9, após examinar as posições 1 e 5 verificarmos 
que elas já estão ocupadas. 


Supomos que estamos usando hash uniforme. Nesse esquema idealizado, a sequência de sondagem (A(k, 0), A(k, 
D, ..., A(k, m — 1)) usada para inserir ou procurar cada chave k tem igual probabilidade de ser qualquer permutação de 


(0, 1, ...,m — 1). É claro que uma determinada chave tem uma sequência de sondagem fixa e única associada a ela; o 
que queremos dizer é que, considerando a distribuição de probabilidades no espaço de chaves e a operação da função 
hash nas chaves, cada sequência de sondagem possível é igualmente provável. 

Agora, analisamos o número esperado de sondagens para hash com endereçamento aberto, adotando a premissa 
do hashing uniforme, começando com uma análise do número de sondagens realizadas em uma busca mal sucedida. 


Teorema 11.6 


Dada uma tabela de espalhamento de endereço aberto com fator de carga a = n/m < 1, o número esperado de 
sondagens em uma busca mal sucedida é no máximo 1/(1 — a ), supondo hashing uniforme. 


Prova Em uma busca mal sucedida, toda sondagem exceto a última acessa uma posição ocupada que não contém a 
chave desejada, e a última posição sondada está vazia. Vamos definir a variável aleatória X como o número de 
sondagens executadas em uma busca mal sucedida, e também definir o evento 4,, para i = 1, 2, ..., como o evento em 
que ocorre uma i-ésima sondagem e ela é para uma posição ocupada. Então, o evento £X > i) é a interseção dos 
eventos 4, NA, MN... NA. Limitaremos (X > ij limitando Pr (4, NA, MN... NA —!3. Pelo Exercício C.2-5, 


PRAIA Ms AS PAPA, | AJ<PRA, LAMA 
PRA, LÁ MA, MMA a 


Visto que há n elementos e m posições, Pr(4,+ = n/m. Para j > 1, a probabilidade de existir uma j-ésima sondagem e 
ela ser para uma posição ocupada, dado que as primeiras ; — 1 sondagens foram para posições ocupadas, é (n — j + 
D/(m — j + 1). Essa probabilidade decorre porque estaríamos encontrando um dos (n — (; — 1)) elementos restantes 
em uma das (m — (; — 1)) posições não examinadas e, pela premissa do hash uniforme, a probabilidade é a razão entre 
essas quantidades. Observando que n < m implica (n — )(m — j) <n/m para todo j talque O <; <m, temos para todo 
italquel<i<m, 


EE RL a A 
mm-lm- m-i+2 


Agora, usamos a equação (C.25) para limitar o número esperado de sondagens: 


EE] = UR 


Esse limite de 1/(1-0)= 1+ a + oo + os +... tem uma interpretação intuitiva. Sempre executamos a primeira sondagem. 
Com probabilidade de aproximadamente a, essa primeira sondagem encontra uma posição ocupada, de modo que 
precisamos de uma segunda sondagem. Com probabilidade de aproximadamente o2, as duas primeiras posições estão 
ocupadas, de modo que executamos uma terceira sondagem, e assim por diante. 

Se a é uma constante, o Teorema 11.6 prevê que uma busca mal sucedida é executada no tempo O(1). Por 
exemplo, se a tabela de espalhamento estiver cheia até a metade, o número médio de sondagens em uma busca mal 
sucedida é no máximo 1/(1 — 0,5) = 2. Se ela estiver 90% cheia, o número médio de sondagens será no máximo 1/(1 — 
0,9) = 10. 

O Teorema 11.6 nos dá o desempenho do procedimento Hasu-Inserr quase imediatamente. 


Corolário 11.7 


Inserir um elemento em uma tabela de espalhamento de endereço aberto com fator de carga a exige no máximo 1/(1 — 
o) sondagens, em média, considerando hash uniforme. 


Prova Um elemento é inserido somente se houver espaço na tabela e, portanto, a < 1. Inserir uma chave requer uma 
busca mal sucedida seguida pela colocação da chave na primeira posição vazia encontrada. Assim, o número esperado 
de sondagens é, no máximo, 1/(1 — a). 


Temos de trabalhar um pouco mais para calcular o número esperado de sondagens para uma busca bem-sucedida. 


Teorema 11.8 


Dada uma tabela de espalhamento de endereço aberto com fator de carga o < 1, o número esperado de sondagens em 
uma busca bem sucedida é, no máximo, 
considerando hash uniforme e também que cada chave na tabela tem igual probabilidade de ser procurada. 


Prova Uma busca de uma chave k reproduz a mesma sequência de sondagem que foi seguida na inserção do elemento 
com chave k. Pelo Corolário 11.7, se k foi a (i + 1)-ésima chave inserida na tabela de espalhamento, o número 
esperado de sondagens efetuadas em uma busca de k é no máximo 1/(1 — i/m) = m/(m — i). O cálculo da média para 
todas as n chaves na tabela de espalhamento nos dá o número esperado de sondagens em uma busca bem-sucedida: 

Se a tabela de espalhamento estiver cheia até a metade, o número esperado de sondagens em uma busca bem-sucedida 
será menor que 1,387. Se a tabela de espalhamento estiver 90% cheia, o número esperado de sondagens será menor 
que 2,559. 


Exercícios 


11.4-1 Considere a inserção das chaves 10, 22, 31, 4, 15, 28, 17, 88, 59 em uma tabela de espalhamento de 
comprimento m = 11 usando endereçamento aberto com a função hash auxiliar h"(k) = k. Ilustre o resultado 
da inserção dessas chaves utilizando sondagem linear, utilizando sondagem quadrática comc = 1ec,=3,e 
utilizando hash duplo com A (k) = k e A(k) = 1 + (k mod (m — 1)). 


11.4-2 Escreva pseudocódigo para Hasm-DeLere como descrito no texto e modifique HasH-Inserr para manipular o 
valor especial DELETED. 


11.4-3 Considere uma tabela de espalhamento de endereços abertos com hashing uniforme. Dê limites superiores 
para o número esperado de sondagens em uma busca mal sucedida e para o número de sondagens em uma 
busca bem sucedida quando o fator de carga for 3/4 e quando for 7/8. 


11.4-4 Suponha que utilizamos hash duplo para resolver colisões; isto é, usamos a função hash A(k, 1) = (A,(k) + 
ih,(k)) mod m. Mostre que, se m e A,(k) têm máximo divisor comum d > 1 para alguma chave k, então uma 
busca mal sucedida para a chave k examina (1/d)-ésimo da tabela de espalhamento antes de retornar à 
posição A,(k). Assim, quando d = 1, de modo que m e A,(k) são primos entre si, a busca pode examinar a 
tabela de espalhamento inteira. (Sugestão: Consulte o Capítulo 31.) 


11.4-5  * Considere uma tabela de espalhamento de endereço aberto com um fator de carga a. Encontre o valor não 
zero a para o qual o número esperado de sondagens em uma busca mal sucedida é igual a duas vezes o 
número esperado de sondagens em uma busca bem sucedida. Use os limites superiores dados pelos Teoremas 
11.6€ 11.8 para esses números esperados de sondagens. 


11.5 + Hasminc PERFEITO 


Embora, muitas vezes, seja uma boa escolha por seu excelente desempenho no caso médio, o hashing também 
pode proporcionar excelente desempenho no pior caso, quando o conjunto de chaves é estático: assim que as chaves 
são armazenadas na tabela, o conjunto de chaves nunca muda. Algumas aplicações têm naturalmente conjuntos de 
chaves estáticos: considere o conjunto de palavras reservadas em uma linguagem de programação ou o conjunto de 
nomes de arquivos em um CD-ROM. Damos a uma técnica de hashing o nome de hashing perfeito se forem exigidos 
O(1) acessos à memória para executar uma busca no pior caso. 

Para criar um esquema de hashimng perfeito, usamos dois níveis de aplicação do hash, com hashing universal em 
cada nível. A Figura 11.6 ilustra essa abordagem. 

O primeiro nível é essencialmente o mesmo do hashing com encadeamento: as n chaves são espalhadas por m 
posições utilizando uma função hash h cuidadosamente selecionada de uma família de funções hash universal. 

Porém, em vez de fazer uma lista ligada das chaves espalhadas para a posição j, usamos uma pequena tabela de 
hashing secundário S, com uma função hash associada h,. Escolhendo as funções hash h, cuidadosamente, podemos 
garantir que não haverá colisões no nível secundário. 

Contudo, para garantir que não haverá nenhuma colisão no nível secundário, é preciso que o tamanho m, da tabela 
de espalhamento S, seja o quadrado do número n, de chaves que se espalham para a posição j. Embora pareça 
provável que a dependência quadrática de m; em relação a n, torne excessivo o requisito global de armazenamento, 
mostraremos que, escolhendo bem a função hash de primeiro nível, podemos limitar a quantidade total de espaço usado 
esperado a O(n). 

Usamos funções hash escolhidas das classes universais de funções hash da Seção 1.3.3. A função hash de primeiro 
nível vem da classe »m onde, como na Seção 1.3.3, p é um número primo maior que qualquer valor de chave. Essas 
chaves espalhadas para a posição j são espalhadas mais uma vez para uma tabela de espalhamento secundário .S, de 
tamanho m; com a utilização de uma função hash A; escolhida na classe », my!. 
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Figura 11.6 Utilização de hash perfeito para armazenar o conjunto K = (10, 22, 37, 40, 52, 60, 70, 72, 75%. A função hash extema é A(k) = 
((ak + b) mod p) mod m, onde a =3, b =42,p = 101,em=p9. Por exemplo, A(75) =2,e portanto os hashes da chave 75 vão para o espaço 
vazio 2 da tabela 7. Uma tabela de hash secundária S;armazena todas as chaves cujos hashes vão para o espaço vazio j. O tamanho da 
tabela de hash S é mj=n,, e a função hash associada é Ah) = ((ajk+ b;) mod p) mod mj. Visto que A, (75) = 7, a chave 75 é armazenada 
no espaço vazio 7 da tabela de hash secundária S, . Não ocorre nenhuma colisão em qualquer das tabelas de hash secundárias e, 
portanto, a busca leva tempo constante no pior caso. 


Prosseguiremos em duas etapas. Primeiro, determinaremos como assegurar que as tabelas secundárias não tenham 
nenhuma colisão. Em segundo lugar, mostraremos que a quantidade global esperada de memória utilizada para a 
tabela de espalhamento primário e para todas as tabelas de espalhamento secundário é O(n). 


Teorema 11.9 


Suponha que armazenamos n chaves em uma tabela de espalhamento de tamanho m = n, usando uma função hash h 
escolhida aleatoriamente de uma classe universal de funções hash. Então, a probabilidade de haver quaisquer colisões é 
menor que 1/2. 


Prova Há pares de chaves que podem colidir; cada par colide com probabilidade 1/m se h é escolhida aleatoriamente 
de uma família universal de funções hash. Seja X uma variável aleatória que conta o número de colisões. Quando m = 
n,, O número esperado de colisões é 


EX] =| | 


a He 


(Essa análise é semelhante à análise do paradoxo do aniversário na Seção 5.4.1.) A aplicação da desigualdade de 
Markov (C€.30), Pr (X > 1) < E[X]/t, comt = 1 conclui a prova. 


Na situação descrita no Teorema 11.9, onde m = n,, decorre que uma função hash h escolhida aleatoriamente de 
tem maior probabilidade de não ter nenhuma colisão. Dado o conjunto K de n chaves às quais o hash deve ser 
aplicado (lembre-se de que K é estático), é fácil encontrar uma função hash h livre de colisões com algumas tentativas 
aleatórias. 

Contudo, quando n é grande, uma tabela de espalhamento de tamanho m = n, é excessiva. Assim, adotamos a 
abordagem de hash de dois níveis e usamos a abordagem do Teorema 11.9 apenas para o hash das entradas dentro de 
cada posição. Usamos uma função hash h exterior, ou de primeiro nível, para espalhar as chaves para m = n posições. 
Então, se n, chaves são espalhadas para a posição j, usamos uma tabela de espalhamento secundário S, de tamanho m, 
= nº; para busca de tempo constante livre de colisões. 

Agora, trataremos da questão de assegurar que a memória global usada seja O(n). Como o tamanho m, da j-ésima 
tabela de espalhamento secundário cresce quadraticamente com o número n; de chaves armazenadas, existe o risco de 
a quantidade global de armazenamento ser excessiva. 

Se o tamanho da tabela de primeiro nível é m = n, então a quantidade de memória usada é O(n) para a tabela de 
espalhamento primário, para o armazenamento dos tamanhos m, das tabelas de espalhamento secundário e para o 
armazenamento dos parâmetros a, e b, que definem as funções hash secundário h, extraídas da classe »,m da Seção 
11.3.3 (exceto quando n; = 1 e usamos a = b = 0). Os teorema e corolário seguintes fornecem um limite para os 
tamanhos combinados esperados de todas as tabelas de espalhamento secundário. Um segundo corolário limita a 
probabilidade de o tamanho combinado de todas as tabelas de espalhamento secundário ser superlinear. (Na verdade, 
equivale ou excede 4n). 


Teorema 11.10 


Suponha que armazenamos n chaves em uma tabela de espalhamento de tamanho m = n usando uma finção hash 
h escolhida aleatoriamente de uma classe universal de funções hash. Então, temos 


m—1l 
2 
É Pan E ZH. 
j=0 


onde n; é o número de chaves que efetuam hash para a posição j. 


Prova Começamos com a identidade a seguir, válida para qualquer inteiro não negativo a: 


2 =0+2 
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| (11.6) 


Temos 


m—1 n, 
= E DE n;+2 ' (pela equação (11.6)) 
j=0 
mA maI(n 
“ FÊ nt ZE || (por lineraridade da esperança) 
j=0 j=0 
ma(n. 
= Elnl+2E 5) (pela equação (11.1)) 
j=0 
m— hn; ) E ; 
=n+E : (já que n não é uma variável aleatória) 


j=0 


= m—1 h, 
j=0 po 
Para avaliar o somatório , Observamos que ele é simplesmente o número total de pares de chaves 
na tabela de espalhamento que colidem. Pelas propriedades de hash universal, o valor esperado desse somatório é, no 
máximo, 
n|/1 n(n— 1) 
2)m 2m 
HE. 
) 2 


já quem =n. Assim, 
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Corolário 11.11 


Suponha que armazenamos n chaves em uma tabela de espalhamento de tamanho m = n usando uma função hash h 
escolhida aleatoriamente de uma classe universal de funções hash e definimos o tamanho de cada tabela de 
espalhamento secundário como m, = n2 para j = 0, 1,...,m — 1. Então, a quantidade esperada de armazenamento 
exigido para todas as tabelas de espalhamento secundário em um esquema de hash perfeito é menor que 2n. 


Prova Visto que m,= n%paraj =0,1,...,m— 1,0 Teorema 11.10 nos dá 
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o que conclui a prova. 


Corolário 11.12 


Suponha que armazenamos n chaves em uma tabela de espalhamento de tamanho m = n, usando uma função hash h 
escolhida aleatoriamente de uma classe universal de funções hash e definimos o tamanho de cada tabela de 
espalhamento secundário como m,=nº paraj=0,1,..,m— 1. Então, a probabilidade de o armazenamento total 
usado para tabelas de espalhamento secundário ser igual ou exceder 4n é menor que 1/2. 


Prova Aplicamos mais uma vez a desigualdade de Markov (C.30), PrtX > t) < E[X]/t, desta vez à desigualdade 
m—1 


(11.7), com X = E» o et=4n: 


m—l E » id mM. | 
Pr Em, >4nt < AR ce imo 3 
mo ! 4n 
2n 
4n 
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Pelo Corolário 11.12, vemos que, se testarmos algumas funções hash escolhidas aleatoriamente de uma família 
universal, encontraremos rapidamente uma função que utiliza uma quantidade razoável de espaço de armazenamento. 


S 


Exercícios 


11.5-1 * Suponha que inserimos n chaves em uma tabela de espalhamento de tamanho m usando o endereçamento 
aberto e hash uniforme. Seja p(n, m) a probabilidade de não ocorrer nenhuma colisão. Mostre que p(n, m) < 
en D/2m, (Sugestão: Consulte a equação (3.12).) Demonstre que, quando n excede Ym, a probabilidade 
de evitar colisões cai rapidamente a zero. 


Problemas 
1W-1 Limite para sondagem mais longa em hashing 


Suponha que usamos uma tabela de espalhamento de endereçamento aberto de tamanho m para armazenar n 
<m/2. ítens. 


a. Considerando hashing uniforme, mostre que, para i = 1, 2, ...., n, a probabilidade de a i-ésima inserção 
exigir estritamente mais de k sondagens é, no máximo, 2. 


b. Mostre que, para i = 1,2, ...,n, a probabilidade de a i-ésima inserção exigir mais de 2 lg n sondagens é, 
no máximo, O(1/n2). 


Seja X,a variável aleatória que denota o número de sondagens exigidas pela i-ésima inserção. Você mostrou 
na parte (b) que PrfX. > 2 lg nj < O(l/n? ). Seja X=max1 <i< /X,a variável aleatória que denota o 
número máximo de sondagens exigidas por quaisquer das n inserções. 


c. Mostre que PriX>2 lgn) < O(l1/n). 


11-2 


1-3 


d. Mostre que o comprimento esperado EX da sequência de sondagens mais longa é O(lg nn). 
Limite do tamanho por posição no caso de encadeamento 


Suponha que temos uma tabela de espalhamento com n posições, com colisões resolvidas por encadeamento 
e que n chaves sejam inseridas na tabela. Cada chave tem igual probabilidade de ter hash para cada posição. 
Seja M o número máximo de chaves em qualquer posição após todas as chaves terem sido inseridas. Sua 
missão é provar um limite superior O(lg n/lg lg n) para E[M], o valor esperado de M. 


a. Mostre que a probabilidade O: de ocorrer hash de exatamente k chaves para uma determinada posição é 
dada por 


1 k 1 n—k 
n 
=| ps o, 


n n k 


b. Seja Pra probabilidade de M = k, isto é, a probabilidade de a posição que contém o número máximo de 
chaves conter k chaves. Mostre que P:< nO. 


c. Use a aproximação de Strrling, equação (3.18), para mostrar que O: < e* /kk, 


d. Mostre que existe uma constante c > 1 tal que O, < 1/n, para k, = c lg n/lg lg n. Conclua que P < 1/nº 
parak>k,=clgntglgn. 


e. Mostre que 


clgn 
Iglgn 


EM<PriM> EB? | ny priM<ÃB? |, 
lIglgn lg lg n 


Conclua que EIM] = O(lg n/lg lg n). 
Sondagem quadrática 


Suponha que recebemos uma chave k para buscar numa tabela de espalhamento com posições 0, 1, ..., m — 
1, e suponha que temos uma função hash h que mapeia o espaço de chaves para o conjunto (0, 1, ...,m — 
1!. O esquema de busca é o segunte: 


1. Calcule o valor; = A(k) e faça i = 0. 


2. Sonde a posição j; em busca da chave desejada k. Se a encontrar ou se essa posição estiver vazia, 
encerre a busca. 


3. Façaj=i+ 1. Se agora i for iguala m, a tabela está cheia; portanto, encerre a busca. Caso contrário, 
defina ; = (i + j) mod m e retorne à etapa 2. 


Suponha que m é uma potência de 2. 


a. Mostre que esse esquema é uma instância do esquema geral de “sondagem quadrática”, exibindo as 
constantes ci e c> adequadas para a equação (11.5). 


b. Prove que esse algoritmo examina cada posição da tabela no pior caso. 


1-4  Hashing e autenticação 


Seja uma classe de finções hash na qual cada função hash h & mapeia o universo U de chaves para (0, 1, 
«om — 15. Dizemos que H é k-universal se, para toda sequência fixa de k chaves distintas (x, X (py --:» X q) 
e para qualquer h escolhido aleatoriamente de H, a sequência (h(xa), AC) > (xa) tem igual 
probabilidade de ser qualquer uma das m, sequências de comprimento k com elementos extraídos de (0, 1, 
A: 


a. Mostre que, se a família H de funções hash é 2-universal, então ela é universal. 


b. Suponha que o universo U seja o conjunto de ênuplas de valores extraídos de » 10,1,... p —1!, onde p é 
primo. Considere um elemento x = (x9X,,...X,— 1) E U. Para qualquer ênupa a = (aça,..,a,-1) E U, 
defina a função hash A, por 


n—1 
EAR) = Rd mod p 
j=0 


Seja = (h,+. Mostre que é universal, mas não 2-universal. (Sugestão: Encontre uma chave para a qual todas 
as funções hash em produzem o mesmo valor. ) 


c. Suponha que modificamos ligeiramente 'emrelação à parte (b): para qualquer a € U e para qualquer b 
E », defina 


mod p 


n—1 
h' Ax)= pois +b 


j=0 


e = (h'ab). Demonstre que * é 2-universal. (Sugestão: Considere ênuplas fxasx E Uey E U, comx, £), 
para alguns i. O que acontece com hab (x) e hab (y) à medida que a, e b percorrem p?) 


d. Suponha que Alice e Bob concordam secretamente com uma função hash h de uma família 2-universal 
de funções hash. Cada h € mapeia de um universo de chaves U para », onde p é primo. Mais tarde, 
Alice envia uma mensagem m a Bob pela Internet, na qualm E U. Ela autentica essa mensagem para 
Bob também enviando uma marca de autenticação t = h(m), e Bob verifica se o par (m, t) que ele recebe 
satisfaz t = h(m). Suponha que um adversário intercepte (m, t) em trânsito e tente enganar Bob 
substituindo o par (m, t) que recebeu por um par diferente (m, t). Mostre que a probabilidade de o 
adversário conseguir enganar Bob e fazê-lo aceitar (m, t) é, no máximo, 1/p, independentemente da 
capacidade de computação que o adversário tenha e até mesmo de o adversário conhecer a família de 
funções hash usada. 


NorTas DO CAPÍTULO 


Knuth [211] e Gomnet [145] são excelentes referências para a análise de algoritmos de hashing. Knuth credita a H. 
P. Lu (1953) a criação de tabelas de espalhamento, juntamente com o método de encadeamento para resolver 
colisões. Aproximadamente na mesma época, G. M. Amdahl apresentou a ideia do endereçamento aberto. 

Carter e Wegman introduziram a noção de classes universais de funções hash em 1979 [58]. Fredman, Komlós e 
Szemerédi [112] desenvolveram o esquema de hashing perfeito para conjuntos estáticos apresentado na Seção 11.5. 


Uma extensão de seu método para conjuntos dinâmicos, tratamento de inserções e eliminações em tempo esperado 
amortizado O(1), foi apresentada por Dietzfelbinger et al. [87]. 


1 Quando n =m = 1, não precisamos realmente de uma função hash para a posição j; quando escolhemos uma função hash A (k) = ((ak + 
b) mod p) mod m; para tal posição, usamos simplesmente a = b = 0. 


] ») ÁRVORES DE BUSCA BINÁRIA 


A estrutura árvore de busca suporta muitas operações de conjuntos dinâmicos, incluindo SearcH, Minimum, MAxIMUM, 
PreDECESSOR, SUCCESSOR, INSERT E DELETE. Assim, uma árvore de busca pode ser usada como um dicionário e também como 
uma fila de prioridades. 

As operações básicas em uma árvore de busca binária demoram um tempo proporcional à altura da árvore. No 
caso de uma árvore binária completa com n nós, tais operações são executadas no tempo Ollg nn) do pior caso. Porém, 
se a árvore é uma cadeia linear de n nós, as mesmas operações demoram o tempo O(n) do pior caso. Veremos na 
Seção 12.4 que a altura esperada de uma árvore de busca binária construída aleatoriamente é O(lg nn), de modo que as 
operações básicas de conjuntos dinâmicos em tal árvore demoram o tempo Ollg n) em média. 

Na prática, nem sempre podemos garantir que as árvores de busca binária sejam construídas aleatoriamente, mas 
podemos projetar variações de árvores de busca binária com bom desempenho do pior caso garantido em operações 
básicas. O Capítulo 13 apresenta uma dessas variações, as árvores vermelhopreto, que têm altura O(lg n). O Capítulo 
18 mtroduz as árvores B (Btrees), que são particularmente boas para manter bancos de dados em armazenamento 
secundário (disco). 

Depois da apresentação das propriedades básicas de árvores de busca binária, as próximas seções mostram como 
percorrer uma árvore de busca binária para imprimir seus valores em sequência ordenada, como procurar um valor em 
uma árvore de busca binária, como encontrar o elemento mínimo ou máximo, como encontrar o predecessor ou o 
sucessor de um elemento e como inserir ou elimmar elementos em uma árvore de busca binária. As propriedades 
matemáticas básicas das árvores são apresentadas no Apêndice B. 


12.1 Oque É UMA ÁRVORE DE BUSCA BINÁRIA? 


Uma árvore de busca binária é organizada, como o nome sugere, em uma árvore binária, como mostra a Figura 
12.1. Podemos representar tal árvore por uma estrutura de dados ligada, na qual cada nó é um objeto. Além de uma 
chave e de dados satélites, cada nó contém atributos esquerda, direita e p, que apontam para os nós correspondentes 
ao seu filho à esquerda, ao seu filho à direita e ao seu pai, respectivamente. Se um filho ou o pai estiver ausente, o 
atributo adequado contém o valor nm. O nó raiz é o único nó na árvore cujo pai é ni. 

As chaves em uma árvore de busca binária são sempre armazenadas de modo a satisfazer a propriedade de árvore 
de busca binária: 

Seja x um nó em uma árvore de busca binária. Se y é um nó na subárvore esquerda de x, então y.chave < 
x.chave. Se y é umnó na subárvore direita de x, então x.chave > y.chave. 

Assim, na Figura 12.1(a), a chave da raiz é 6, as chaves 2, 5 e 5 em sua subárvore esquerda não são maiores que 
6, e as chaves 7 e 8 em sua subárvore direita não são menores que 6. A mesma propriedade é válida para todo nó na 
árvore. Por exemplo, a chave 5 no filho à esquerda da raiz não é menor que a chave 2 na subárvore esquerda daquele 
nó e não é maior que a chave 5 na subárvore direita. 


| 


(a) (b) 


Figura 12.1 Árvores de busca binária. Para qualquer nó x, as chaves na subárvore esquerda de x são no máximo x.chave, e as chaves 
na subárvore direita de x são no mínimo x.chave. Árvores de busca binária diferentes podem representar o mesmo conjunto de valores. 
O tempo de execução do pior caso para a maioria das operações em árvores de busca é proporcional à altura da árvore. (a) Uma árvore 
de busca binária com seis nós e altura 2. (b) Uma árvore de busca binária menos eficiente, comaltura 4, que contém as mesmas chaves. 


A propriedade de árvore de busca binária nos permite imprimir todas as chaves em uma árvore de busca binária 
em sequência ordenada por meio de um simples algoritmo recursivo, denominado percurso de árvore em in-ordem. 
Esse algoritmo tem tal nome porque imprime a chave da raiz de uma subárvore entre a impressão dos valores em sua 
subárvore esquerda e a impressão dos valores em sua subárvore direita. (De modo semelhante, um percurso de árvore 
em pré-ordem imprime a raiz antes dos valores das subárvores, e um percurso de árvore em pós-ordem imprime a 
raiz depois dos valores em suas subárvores.) Para usar o procedimento a seguir com o objetivo de imprimir todos os 
elementos em uma árvore de busca binária T, chamamos Inorper-Tree-WaLk(T raiz). 


INnoRDER-TREE-WAIXK(x) 


if x = NIL 
IxoRDER-TREE-WaLK(x.esquerda) 
print x.chave 
INnoRDER-TREE-WaLK(x.direita) 


E QN m 


Como exemplo, o percurso de árvore em ordem imprime as chaves em cada uma das duas árvores de busca 
binária da Figura 12.1 na ordem 2, 3, 5, 6, 7, 8. A correção do algoritmo decorre por indução diretamente da 
propriedade de árvore de busca binária. 

Percorrer uma árvore de busca binária de n nós demora o tempo Q(n) já que, após a chamada inicial, o 
procedimento chama a si mesmo recursivamente exatas duas vezes para cada nó na árvore — uma vez para seu filho à 
esquerda e uma vez para seu filho à direita. O teorema a seguir, apresenta uma prova formal de que o tempo para 
executar um percurso de árvore em inordem é linear. 


Teorema 12.1 


Se x é a raiz de uma subárvore de n nós, então a chamada Inorver-Trer-WaLk(x) demora o tempo Q(n). 


Prova Seja T(n) o tempo tomado por Inorper-Trer-WaLk quando chamado na raiz de uma subárvore de n nós. Visto 
que InorDer-Trer-WaLK visita todos os n nós da subárvore, temos T(n) = (n). Resta mostrar que T(n) = O(n). 

Uma vez que Inorver-Trer-WaLk demora um tempo pequeno e constante em uma subárvore vazia (para o teste x £ 
niL), temos T(0) = c para alguma constante c > 0. 


Para n > 0, suponha que Inorper-Tree-WaLK seja chamado em um nó x cuja subárvore esquerda tem k nós e cuja 
subárvore direita tem n — k — 1 nós. O tempo para executar Inorver-Tree-WaLK(Xx) é limitado por T(n) = T(k) + T(n — k 
— D+ d para alguma constante d > 0, que reflete um limite superior para o tempo de execução do corpo de Inorper- 
Tree-Watk(Xx), excluindo o tempo gasto em chamadas recursivas. 

Usamos o método de substituição para mostrar que T(n) = Q(n), provando que T(n) < (c+ dn + c. Paran =0, 
temos (c+d):0+c=c=T(0). Paran > 0, temos 


T(n)<TW+T(n-k-D+d 
= (e- dc) + te + ain —-k=DA-c dd 
=(c+dn+c-(c+d+c+d 
=(c+dn+c, 


o que conclui a prova. 


Exercícios 
12.1-1 Trace árvores de busca binária de alturas 2, 3, 4, 5 e 6 para o conjunto de chaves (1, 4,5, 10, 16, 17,21). 


12.1-2 Qualé a diferença entre a propriedade de árvore de busca binária e a propriedade de heap de mínimo (veja p. 
153)? A propriedade de heap de mínimo pode ser usada para imprimir as chaves de uma árvore de n nós em 
sequência ordenada no tempo O(n)? Justifique sua resposta. 


12.1-3 Dê um algoritmo não recursivo que execute um percurso de árvore em ordem. (Sugestão: Uma solução fácil 
usa uma pilha como uma estrutura de dados auxiliar. Uma solução mais complicada, porém elegante, não 
emprega nenhuma pilha, mas considera que é possível testar a igualdade entre dois ponteiros.) 


12.1-4 Dê algoritmos recursivos que executem percursos de árvores em préordem e pós-ordem no tempo Q(n) em 
uma árvore de n nós. 


12.1-5 Mostre que, considerando que a ordenação de n elementos demora o tempo (n lg n) no pior caso do modelo 
de comparação, qualquer algoritmo baseado em comparação para construir uma árvore de busca binária com 
base em uma lista arbitrária de n elementos demora o tempo (n lg n) no pior caso. 


12.2 ConsuLTAS EM UMA ÁRVORE DE BUSCA BINÁRIA 


Frequentemente precisamos procurar uma chave armazenada em uma árvore de busca binária. Além da operação 
SearcH, árvores de busca binária podem suportar as consultas Minimum, INor- DER-MAxIMUM, Successor € PrepecEssor. Nesta 
seção, examinaremos essas operações e mostraremos como suportar cada uma delas no tempo O(h) em qualquer 
árvore de busca binária de altura A. 


Buscas 


Usamos o procedimento a seguir para procurar um nó com determinada chave em uma árvore de busca binária. 
Dado um ponteiro para a raiz da árvore e uma chave k, Trer-SrarcH retorna um ponteiro para um nó com chave k, se 
existir algum; caso contrário, ele retorna nr. 


TrEE-SEARCH(x, k) 


1 dêx== NE ouk==-x.chmoe 

2 return x 

3 ifk<xchave 

4 return TREE-SEARCH(x.esquerda, k) 
5 else returmn TrEE-SEARCH(x.direita, k) 


O procedimento começa sua busca na raiz e traça um caminho simples descendo a árvore, como mostra a Figura 
12.2. Para cada nó x que encontra, ele compara a chave k com a x.chave. Se as duas chaves são iguais, a busca 
termina. Se k é menor que x.chave, a busca continua na subárvore esquerda de x, já que a propriedade de árvore de 
busca binária implica que k não poderia estar armazenada na subárvore direita. Simetricamente, se k é maior que 
x.chave, a busca continua na subárvore direita. Os nós encontrados durante a recursão formam um caminho simples 
descendente partindo da raiz da árvore e, portanto, o tempo de execução de Trer-Searcn é O(A), onde h é a altura da 
árvore. 

O mesmo procedimento pode ser reescrito de modo iterativo, “desdobrando” a recursão dentro de um laço while. 
Na maioria dos computadores, a versão iterativa é mais eficiente. 


ITERATIVE-TREE-SEARCH(x, k) 


1 whilex=niLek = x.chave 
É. if k < x.chave 

3 x = x.esquerda 

4 else x = x.direita 

5 retumrx 


Mínimo e máximo 
Sempre podemos encontrar um elemento em uma árvore de busca binária cuja chave é um mínimo seguindo 


ponteiros de filhos da esquerda desde a raiz até encontrarmos um valor nr, como mostra a Figura 12.2. O 
procedimento a seguir, retorna um ponteiro para o elemento mínimo na subárvore enraizada em um nó x dado. 
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Figura 12.2 Consultas em uma árvore de busca binária. Para procurar a chave 13 na árvore, seguimos o caminho 15 > 657 > 13 
partindo da raiz. A chave mínima na árvore é 2, que é encontrada seguindo os ponteiros da esquerda partindo da raiz. A chave máxima 20 
é encontrada seguindo os ponteiros da direita partindo da raiz. O sucessor do nó comchave 15 é o nó comchave 17, já que ele é a 
chave mínima na subárvore direita de 15. O nó com chave 13 não tem nenhuma subárvore direita e, assim, seu sucessor é seu ancestral 
mais baixo cujo filho à esquerda também é um ancestral. Nesse caso, o nó comchave 15 é seu sucessor. 


TrEE-MINIMUM(x) 


1 while x.esquerda < NIL 
2 x = x.esquerda 
3 return 


A propriedade de árvore de busca binária garante que Trer-Minimum é correto. Se um nó x não tem nenhuma 
subárvore esquerda, então, visto que toda chave na subárvore direita de x é no mínimo tão grande quanto x.chave, a 
chave mínima na subárvore enraizada em x é x.chave. Se o nó x tem uma subárvore esquerda, então, visto que 
nenhuma chave na subárvore direita é menor que x.chave e toda chave na subárvore esquerda não é maior que 
x.chave, a chave mínima na subárvore enraizada em x pode ser encontrada na subárvore enraizada em x.esquerda. 

O pseudocódigo para Tree-Maximum é simétrico. 


TreE-MAxIMUM(x) 


1 while x.direita > NIL 
2 x = xdtreita 
3 retum«x 


Ambos os procedimentos são executados no tempo O(h) em uma árvore de altura h já que, como em Trer-SearcH, 
a sequência de nós encontrados forma um caminho simples descendente partindo da raiz. 


Sucessor e predecessor 


Dado um nó em uma árvore de busca binária, às vezes, precisamos encontrar seu sucessor na sequência ordenada 
determinada por um percurso de árvore em ordem. Se todas as chaves são distintas, o sucessor de um nó x é o nó com 
a menor chave maior que chavelx]. A estrutura de uma árvore de busca binária nos permite determinar o sucessor de 
um nó sem sequer comparar chaves. O procedimento a seguir, retorna o sucessor de um nó x em uma árvore de busca 
binária se ele existir, e n se x tem a maior chave na árvore. 


TrEE-SUCCESSOR(x) 


if x.direita > NIL 

return TrREE-MINIMUM(x.direita) 
y = plx] 
while y = NILe x = y.direita 

ny 

Y=Y.p 


return y 
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Subdividimos o código para Trer-Successor em dois casos. Se a subárvore direita do nó x for não vazia, então o 
sucessor de x é exatamente o nó da extrema esquerda na subárvore direita de x, que encontramos na linha 2 chamando 
Tree-MinimuM(x. direita). Por exemplo, o sucessor do nó com chave 15 na Figura 12.2 é o nó com chave 17. 

Por outro lado, como o Exercício 12.26 pede que você mostre, se a subárvore direita do nó x é vazia e x tem um 
sucessor y, então y é o ancestral mais baixo de x cujo filho à esquerda é também um ancestral de x. Na Figura 12.2, o 
sucessor do nó com chave 13 é o nó com chave 15. Para encontrar y, simplesmente subimos a árvore desde x até 
encontrarmos um nó que seja o filho à esquerda de seu pai; isso é conseguido por meio das linhas 3 a 7 de Trer- 
SUCCESSOR. 

O tempo de execução de Trer-Successor em uma árvore de altura h é O(A), já que seguimos um caminho simples 
para cima na árvore ou, então, um caminho simples para baixo na árvore. O procedimento Trer-PrepEcessor, que é 
simétrico de Trer-Successor, também é executado no tempo O(A). 

Ainda que as chaves não sejam distintas, definimos o sucessor e o predecessor de qualquer nó x como o nó 
retornado por chamadas feitas a Trer-Successor(X) € Trer-PrepecEssor(X), respectivamente. 

Resumindo, demonstramos o teorema a seguir. 


Teorema 12.2 


Podemos implementar as operações de conjuntos dinâmicos SearcH, Minimum, Maximum, TREE-SuccessoR € PreDECESsOR de 
modo que cada uma seja executada no tempo O(h) em uma árvore de busca binária de altura A. 
Exercícios 


12.2-1 Suponha que temos números entre 1 e 1.000 em uma árvore de busca binária e queremos procurar o número 
363. Qual das seguintes sequências não poderia ser a sequência de nós examinados? 


a. 2,252, 401, 398, 330, 344, 397, 363. 


b. 924, 220,911, 244, 898, 258, 362, 363. 


12.2-2 


12.2-3 


12.2-4 


12.2-5 


12.2-6 


12.2-7 


12.2-8 


12.2-9 


c. 925,202,911, 240, 912, 245, 363. 

d. 2,399, 387, 219, 266, 382, 381, 278, 363. 

e 935,278, 347, 621, 299, 392, 358, 363. 

Escreva versões recursivas de Trez-MiniMum € TREE-MAxIMUM 
Escreva o procedimento Trer-PrepEcEssor. 


O professor Bunyan pensa ter descoberto uma notável propriedade de árvores de busca binária. Suponha que 
a busca da chave k em uma árvore de busca binária termine em uma folha. Considere três conjuntos: 4, as 
chaves à esquerda do caminho de busca; B, as chaves no caminho de busca; e C, as chaves à direita do 
caminho de busca. O professor Bunyan afirma que quaisquer três chavesa E 4,b E Bec E C devem 
satisfazer a b < c. Dê um contraexemplo menor possível para a afirmação do professor. 


Mostre que, se um nó em uma árvore de busca binária tem dois filhos, então seu sucessor não tem nenhum 
filho à esquerda e seu predecessor não tem nenhum filho à direita. 


Considere uma árvore de busca binária T cujas chaves são distintas. Mostre que, se a subárvore direita de um 
nó x em T é vazia e x tem um sucessor y, então y é o ancestral mais baixo de x cujo filho à esquerda também 
é um ancestral de x. (Lembrese de que todo nó é seu próprio ancestral.) 


Um método alternativo de executar um percurso de árvore em ordem em uma árvore de busca binária de n 
nós encontra o elemento mínimo na árvore chamando Trer-Minimum e depois fazendo n — 1 chamadas a Trez- 
Successor. Prove que esse algoritmo é executado no tempo Q(n). 


Prove que, independentemente do nó onde iniciamos em uma árvore de busca binária de altura A, k chamadas 
sucessivas a Trer-Successor demoram o tempo O(k + h). 


Seja T uma árvore de busca binária cujas chaves são distintas, seja x um nó de folha e seja y seu pai. Mostre 
que y.chave é a menor chave em T maior que x.chave ou a maior chave em 7 menor que x.chave. 


12.3 Inserção E ELIMINAÇÃO 


As operações de inserção e eliminação provocam mudanças no conjunto dinâmico representado por uma árvore 
de busca binária. A estrutura de dados deve ser modificada para refletir essa mudança, mas de tal modo que a 
propriedade de árvore de busca binária continue válida. Como veremos, modificar a árvore para inserir um novo 
elemento é uma operação relativamente direta, mas manipular a eliminação é um pouco mais complicado. 


Inserção 


Para inserir um novo valor v em uma árvore de busca binária T, utilizamos o procedimento Trer-Inserr. O 
procedimento toma um nó z para o qual z.chave = v, z.esquerda = nn. e z.direita = nn, e modifica T e alguns dos 
atributos de z de modo tal que insere z em uma posição adequada na árvore. 


TrEE-INSERT(T, z) 


1 y=NIL 

2. we Tn 

3 whilex = nm 

4 V=x 

5 if z.chave < x.chave 

6 x = x.esquerda 
Z else x = x.direita 

8 p= 

9 ify=NIL 

10 Linz //a árvore Tera vazia 
11 elseif z.chave < y.chave 
2  y.esquerda =z 


13 elsey.direita = z 


A Figura 12.3 mostra como Trer-Inserr funciona. Exatamente como os procedimentos Trer-SEaRcH E ITERATIVETREE- 
SearcH, TREE-INSERRT COMEÇA Na raiz da árvore e o ponteiro x e traça um caminho simples descendente procurando um 
ni para substituir pelo item de entrada z. O procedimento mantém o ponteiro acompanhante y como o pai de x. 
Após a inicialização, o loop while nas linhas 3-7 faz com que esses dois ponteiros se desloquem para baixo na árvore, 
indo para a esquerda ou a direita, dependendo da comparação de z.chave com x.chave, até x tornarse nm. Esse nm 
ocupa a posição na qual desejamos colocar o item de entrada z. 


Figura 12.3 Inserção de umitem com chave 13 em uma árvore de busca binária. Os nós sombreados em tommrais claro indicam o 
caminho simples da raiz até a posição em que o item é inserido. A linha tracejada indica a ligação que é acrescentada à árvore para inserir 
o item. 


Precisamos do ponteiro acompanhante y porque, até encontrarmos o nr ao qual z pertence, a busca desenvolveuse 
sempre uma etapa à frente do nó que precisa ser mudado. As linhas 8-13 definem os ponteiros que causam a inserção 
de z. 


Do mesmo modo que as outras operações primitivas em árvores de busca, o procedimento Trer-Inserr é executado 


no tempo O(h) em uma árvore de altura A. 


Eliminação 


A estratégia global para eliminar um nó z de uma árvore de busca binária T tem três casos básicos, mas, como 


veremos, um deles é um pouco complicado. 


Se z não tem nenhum filho, então simplesmente o removemos modificando seu pai de modo a substituir z por nm 
como seu filho. 

Se o nó tem apenas um filho, então elevamos esse filho para que ocupe a posição de z na árvore modificando o pai 
de z de modo a substituir z pelo filho de z. 

Se z tiver dois filhos, encontramos o sucessor de z, y, que deve estar na subárvore direita de z, e obrigamos y a 
tomar a posição de z na árvore. O resto da subárvore direita original de z tornase a nova subárvore direita de y, e a 
subárvore esquerda de z tornase a nova subárvore esquerda de y. Esse é o caso complicado porque, como 
veremos, o fato de y ser ou não o filho à direita de z é importante. 


O procedimento para eliminar um dado nó z de uma árvore de busca binária T toma como argumentos ponteiros 


para Te z. Esse procedimento organiza seus casos de um modo um pouco diferente dos três casos descritos, já que 
considera os quatro casos mostrados na Figura 12.4. 


Se z não tiver nenhum filho à esquerda (parte (a) da figura), substituímos z por seu filho à direita, que pode ser ou 

não ni. Quando o filho à direita de z é nm, esse caso trata da situação na qual z não tem nenhum filho. Quando o 

filho à direita de z é não nrr, esse caso manipula a situação na qual z tem somente um filho, que é o seu filho à 

drreita. 

Se z tiver apenas um filho, que é o seu filho à esquerda (parte (b) da Figura), substituímos z por seu filho à 

esquerda. 

Caso contrário, z tem um filho à esquerda e também um filho à direita. Encontramos o sucessor de z, y, que está na 

subárvore direita de z e não tem nenhum filho à esquerda (veja o Exercício 12.25). Queremos recortar y de sua 

localização atual e fazêlo substituir z na árvore. 

* Seyéo filho a direita de z (parte (c)), substituímos z por y, deixando o filho à direita de y sozinho. 

* Caso contrário, y encontrase dentro da subárvore direita de z, mas não é o filho à direita de z (parte (d)). 
Nesse caso, primeiro substituímos y por seu próprio filho à direita e depois substituímos z por . 


Para movimentar subárvores dentro da árvore de busca binária, definimos uma subrotina TranspLANT, que substitui 


uma subárvore como um filho de seu pai por uma outra subárvore. Quando Transrranr substitui a subárvore enraizada 
no nó u pela subárvore enraizada no nó v, o pai do nó u tornase o pai do nó v, e o pai de u acaba ficando com v como 
seu filho adequado. 


TRANSPLANT (T,u,v) 


1É Up == NIL 
Traiz=v 
elseif u == u.p.esquerda 


else u.p.direita = v 


1 

2 

3 

4 u.p. esquerda = v 
é 

6 ifv=NIL 

/ 


vp=u.p 


q q 


(a) - cervo ó ; 


NIL r 


(b) 


(c) 


(d) 


Figura 12.4 Eliminação de umnó de uma árvore de busca binária. O nó z pode ser a raiz, um filho à esquerda do nó q ou um filho à 
direita de q. (a) O nó z não tem nenhum filho à esquerda. Substituímos z por seu filho à direita 7, que pode ou não ser NIL. (b) O nó ztem 
um filho à esquerda / mas nenhum filho à direita. Substituímos z por /. (ec) O nó z tem dois filhos; seu filho à esquerda é o nó /, seu filho à 
direita é seu sucessor y, e o filho à direita de y é o nó x. Substituímos z por y, atualizando o filho à esquerda de y para que se torne /, mas 
deixando x como o filho à direita de y. (d) O nó z tem dois filhos (o filho à esquerda / e o filho à direita 7), e seu sucessor y £r encontra-se 
dentro da subárvore enraizada emr. Substituímos y por seu próprio filho à direita x, e definimos y como pai de 7. Então, tomamos y filho 
de q e paide /. 


As linhas 1-2 tratam do caso no qual u é a raiz de T. Caso contrário, u é um filho à esquerda ou um filho à direita 
de seu pai. As linhas 3-4 encarregamse de atualizar w.p.direita se u é um filho à esquerda, e a linha 5 atualiza 
u.p.esquerda se u é um filho à direita. Permitimos que v seja nr, e as linhas 6—7 atualizam v.p se v é não nm. Observe 
que TranspLantTNÃãO tenta atualizar update v.esquerda e v.direita; fazer ou não fazer isso é responsabilidade do 
chamador de TranspLANT. 

Com o procedimento TranspLant em mãos, apresentamos a seguir o procedimento que elimina o nó z da árvore de 
busca binária T: 


TrEE-DELETE (T'z) 


if z.esquerda == NIL 
TRANSPLANT (T, z, z direita) 

elseif z.direita == NIL 
TRANSPLANT (T, z, z.esquerda) 


ify.p=z 
TRANSPLANT (T, y, y direita) 
y.direita = z.direita 
y.direita.p = y 
10 TRANSPLANT (T,Z,y) 
pa y.esquerda = z.esquerda 
12 v.esquerda.p =y 


| 
2 
3 
4 
5 elsey = TREE-MINIMUM (Z.direita) 
6 
7 
8 
9 


O procedimento Trer-DeLere executa os quatro casos como descrevemos a seguir. As linhas 1-2 tratam do caso no 
qual o nó z não tem nenhum filho à esquerda, e as linhas 3-4 tratam do caso no qual z tem um filho à esquerda mas 
nenhum filho à direita. As linhas 5—12 lidam com os dois casos restantes, nos quais z tem dois filhos. A linha 5 encontra 
o nó y, que é o sucessor de z. Como z tem uma subárvore direita não vazia, seu sucessor deve ser o nó nessa subárvore 
que tenha a menor chave; daí a chamada a Trez-Minimum (z.direita). Como observamos antes, y não tem nenhum filho à 
esquerda. Queremos recortar y de sua localização atual, e ele deve substituir z na árvore. Se y é o filho à direita de z, 
então as linhas 10-12 substituem z como um filho de seu pai por y e substituí o filho à esquerda de y pelo filho à 
esquerda de z . Se y não é o filho à direita de z , as linhas 7-9 substituem y como um filho de seu pai pelo filho à direita 
de y e transforma o filho à direita de z em filho à direita de y, e então as linhas 10-12 substituem z como um filho de seu 
pai por y e substituem o filho à esquerda de y pelo filho à esquerda de z. 

Cada linha de Tres-Decere, incluindo as chamadas a TransrLant, demora tempo constante, exceto a chamada a 
TreE-MiniMum na linha 5. Assim, Trer-DeLere é executado no tempo O(A) em uma árvore de altura A. 

Resumindo, provamos o teorema apresentado a seguir. 


Teorema 12.3 


Podemos implementar as operações de conjuntos dinâmicos Inserr e DeLere de modo que cada uma seja executada no 
tempo O(h) em uma árvore de busca binária de altura A. 

Exercícios 

12.3-1 Dê uma versão recursiva do procedimento Trer-Inserr. 


12.3-2 Suponha que construímos uma árvore de busca binária inserindo repetidamente valores distintos na árvore. 
Mostre que o número de nós examinados na busca de um valor na árvore é uma unidade mais o número de 
nós examinados quando o valor foi inicialmente inserido na árvore. 


12.3-3 Podemos ordenar um dado conjunto de n múmeros construindo primeiro uma árvore de busca binária 
contendo esses números (usando Trer-Inserr repetidamente para inserir os números um a um) e então 


imprimindo os números por um percurso de árvore em inordem. Quais são os tempos de execução do pior 
caso e do melhor caso para esse algoritmo de ordenação? 


12.3-4 A operação de eliminação é “conutativa” no sentido de que eliminar x e depois y de uma árvore de busca 
binária resulta na mesma árvore que eliminar y e depois x? Mostre por que ou dê um contraexemplo. 


12.3-5 Suponha que, em vez de cada nó x manter o atributo x.p, apontando para o pai de x s, ele mantém x.suc, 
apontando para o sucessor de x. Dê pseudocódigo para Searcn, Inserre DELETE em uma árvore de busca 
binária T usando essa representação. Esses procedimentos devem funcionar no tempo O(h), onde A é a altura 
da árvore T. (Sugestão: Seria interessante implementar uma subrotina que retorne o pai de um nó.) 


12.3-6 Quando o nó z em Trer-Derere tem dois filhos, podemos escolher o nó y como seu predecessor em vez de seu 
sucessor. Se fizermos isso, quais outras mudanças serão necessárias em Trer-DeLere? Há quem defenda que 
uma estratégia justa, que dá igual prioridade ao predecessor e ao sucessor, produz melhor desempenho 
empírico. Como Trer-DeLer: pode ser modificado para implementar tal estratégia justa? 


12.4 + ÁRVORES DE BUSCA BINÁRIA CONSTRUÍDAS ALEATORIAMENTE 


Mostramos que cada uma das operações básicas em uma árvore de busca binária é executada no tempo O(A), 
onde h é a altura da árvore. Contudo, a altura de uma árvore de busca binária varia à medida que itens são inseridos e 
eliminados. Se, por exemplo, os n itens são inseridos em ordem estritamente crescente, a árvore será uma cadeia com 
altura n — 1. Por outro lado, o Exercício B.54 mostra que h > lg n. Como ocorre com o quicksort, podemos mostrar 
que o comportamento do caso médio é muito mais próximo do melhor caso que do pior caso. 

Infelizmente, sabese pouco sobre a altura média de uma árvore de busca binária quando ambas, inserção e 
eliminação, são utilizadas para criála. Quando a árvore é criada somente por inserção, a análise se torna mais tratável. 
Portanto, vamos definir uma árvore de busca binária construída aleatoriamente emn chaves distintas como aquela 
que surge da inserção das chaves em ordem aleatória em uma árvore inicialmente vazia, onde cada uma das n! 
permutações das chaves de entrada é igualmente provável. (O Exercício 12.43 pede que você mostre que essa noção é 
diferente de considerar que toda árvore de busca binária em n chaves é igualmente provável.) Nesta seção, provaremos 
o teorema apresentado a segurr. 


Teorema 12.4 


A altura esperada de uma árvore de busca binária construída aleatoriamente em n chaves distintas é O(lg n). 


Prova Começamos definindo três variáveis aleatórias que ajudam a medir a altura de uma árvore de busca binária 
construída aleatoriamente. Denotamos a altura de uma árvore de busca binária construída aleatoriamente em n chaves 
por X,, e definimos a altura exponencial Y, = 2X. Quando construímos uma árvore de busca binária em n chaves, 
escolhemos uma chave como a chave da raiz e denotamos por R, a variável aleatória que contém a classificação dessa 
chave dentro do conjunto de n chaves, isto é, R, ocupa a posição que essa chave ocuparia se o conjunto de chaves 
fosse ordenado. O valor de R, tem igual probabilidade de ser qualquer elemento do conjunto (1, 2,..., ny. SeR =, 
então a subárvore esquerda da raiz é uma árvore de busca binária construída aleatoriamente em i — 1 chaves, e a 
subárvore direita é uma árvore de busca binária construída aleatoriamente em n — i chaves. Como a altura de uma 
árvore binária é uma unidade maior que a maior das alturas das duas subárvores da raiz, a altura exponencial de uma 
árvore binária é duas vezes a maior das alturas exponenciais das duas subárvores da raiz. Se sabemos que R, = i, 
decorre que 


F=2-madÃ.o 7.) 


Como casos-bases temos que Y = 1 porque a altura exponencial de uma árvore com 1 nó é 20 = 1 e, por 
conveniência, definimos Y, = 0. 
Em seguida, definimos variáveis aleatórias indicadoras Z,,1, Z,,2, ..., Z, 


Z.=HR,=i). 


onde 


Como R, tem igual probabilidade de ser qualquer elemento de (1, 2, ..., ny, decorre que Pr (R = ij = 1/n para i 
= 1,2,...n e, consequentemente, pelo Lema 5.1, temos 


EIZ ]=1/n, (12.1) 


n,i 


para i = 1,2,..., n. Como exatamente um valor de Z,, 'é 1 e todos os outros são 0, também temos 


TD ds NADA al ah 


n—1 
t= 


Mostraremos que E[Y] é um polinômio em n, que, em última análise, implicará E[X] = O( lg n). 

Afirmamos que a variável aleatória indicadora Z,, i= IfR, = ij é independente dos valores de Y—1 e Yi. Como 
escolhemos R, = i, a subárvore esquerda (cuja altura exponencial é Y, — 1) é construída aleatoriamente nas i — 1 chaves 
cujas classificações são menores que 1. Essa subárvore é exatamente igual a qualquer outra árvore de busca binária 
construída aleatoriamente em i — 1 chaves. Exceto pelo número de chaves que contém, a estrutura dessa subárvore não 
é afetada de modo algum pela escolha de R, = i; consequentemente, as variáveis aleatórias Y — 1 e Z, | são 
independentes. Do mesmo modo, a subárvore direita, cuja altura exponencial é Y — i, é construída aleatoriamente nas n 
— i chaves cujas classificações são maiores que i. Sua estrutura é independente do valor de R, e, assim, as variáveis 
aleatórias Y-ie Z,, i são independentes. Daí, temos 


=E51Zy;( A-Ma so 12 4)) 


n-i 


= HZ +" MAX(Ã, 4, 15:4)] (por linearidade da esperança) 
i=1 
= e EIZ, , JEI(2 -max(Y, ,,Y,.,)] (por independência) 
= 
= a *“EIZ -Max(Y, 4, 824)] (pela equação (12.1)) 
= o: aa, 4,1 64)] (pela equação (C.22)) 
= 
< SEM 1+ ElY,.;)) (pelo Exercício C.3-4). 
i=1 


Visto que cada termo E[Y,], E[Y,],..., E[Y,—!] aparece duas vezes no último somatório, uma vez como E[Y—!] e 
uma vez como E[Y —:], temos a recorrência 


Ely J<- “Set (12.2) 
i=0 
Usando o método de substituição, agora mostraremos que, para todos os inteiros positivos n, a recorrência (12.2) 
tem a solução 


1 n+3 


3 


Ao fazermos isso, usaremos a identidade 


i+3) |n+3 5 
asia) (2) 
(O Exercício 12.41 pede que você prove essa identidade.) 
Para os casos-bases, observamos que os limites 0=Y,= E [Y] < (1/4) - =1/4e1=Y,= 


o 


E [Y]< (1/4) = 1 são válidos. Para o caso indutivo, temos que 


1 
6. 


4 n— 
EM, <->] 


i=0 


< a E il fz É (pela hipótese de indução) 
do A 9 
als 

ES 

— a E ' (pela equação 12.3)) 
nl 4 

“1 (n+3)! 

“n no)! 

“a (n+3)! 

Ta 3!n! 

a(n+3 

=| 3 ) 


Limitamos E[Y ], mas nosso objetivo final é limitar ELY,]. Como o Exercício 12.44 pede que você mostre, a função 
fix) = 2x é convexa (veja página 868). Portanto, podemos empregar a desigualdade de Jensen (C.26), que diz que 


2%] < E[2%] 
= E[Y,), 


da seguinte maneira: 


98%, «1 n+3 
“44 8 
1 0+n+2XAn+D) 


4 6 
o n'+6n"+1In+6 


24 
Tomando logaritmos de ambos os lados, temos E[X |] = O(lg n). 


Exercícios 


12.4-1 


12.4-2 


12.4-3 


12.4-4 


12.4-5 


Prove a equação (12.3). 


Descreva uma árvore de busca binária em n nós tal que a profundidade média de um nó na árvore seja O(lg 
n), mas a altura da árvore seja (lg n). Dê um limite superior assintótico para a altura de uma árvore de busca 
binária de n nós na qual a profundidade média de um nó seja O(lg n). 


Mostre que a noção de uma árvore de busca binária escolhida aleatoriamente em n chaves, onde cada árvore 
de busca binária de n chaves tem igual probabilidade de ser escolhida, é diferente da noção de uma árvore de 
busca binária construída aleatoriamente dada nesta seção. (Sugestão: Faça uma lista de possibilidades 
quando n = 3.) 


Mostre que a função f(x) = 2x é convexa. 


* Considere uma aplicação de Ranpomizen-Quicksorr a uma sequência de n números de entrada distintos. 
Prove que, para qualquer constante k > 0, todas as n! permutações de entrada exceto O(1/n,) produzem um 
tempo de execução On lg n). 


Problemas 


12-1 


12-2 


Arvores de busca binária com chaves iguais 
Chaves iguais apresentam um problema para a implementação de árvores de busca binária. 


a. Qual é o desempenho assintótico de Trer-Inserr quando usado para inserir n itens com chaves idênticas 
em uma árvore de busca binária inicialmente vazia? 


Propomos melhorar Trer-Inserr testando antes da linha 5 para determinar se z.chave = x.chave, e 
testando antes da linha 11 para determinar se z chave = y.chave. Se a igualdade for válida, 
implementamos uma das estratégias a seguir. Para cada estratégia, determine o desempenho assintótico 
da inserção de n itens com chaves idênticas em uma árvore de busca binária inicialmente vazia. (As 
estratégias são descritas para a linha 5, na qual comparamos as chaves de z e x. Substitua x por y para 
chegar às estratégias para a linha 11.) 


b. Mantenha um sinalizador booleano x.b no nó x, e atribua a x o valor x.esquerdo oux.direito, de acordo 
com o valor de x.b, que se alterna entre rats: e rrur à cada vez que visitamos x durante a inserção de um 
nó com a mesma chave que x. 


c. Mantenha em x uma lista de nós com chaves iguais e insira z na lista. 


d. Defina aleatoriamente x como x.esquerdo ou x.direito. (Dê o desempenho do pior caso e deduza 
informalmente o tempo de execução esperado.) 


Arvores digitais 


Dadas duas cadeias a = aça,... ae b = bob, ... b,, onde cada a; e cada b, está em algum conjunto ordenado 
de caracteres, dizemos que a cadeia a é lexicograficamente menor que a cadeia b se 


1. existe um inteiro j, onde O <j < min(p, q), tal que a; = bi para todo i=0,1,...,j-lea;<b,ou 


2. p<gea=biparatodo i=0,1,...,p. 


Por exemplo, se a e b são cadeias de bits, então 10100 < 10110 pela regra 1 (fazendo ; = 3) e 10100 < 101000 
pela regra 2. Essa ordenação é semelhante à utilizada em dicionários de idiomas. 

A estrutura de dados árvore digital mostrada na Figura 12.5 armazena as cadeias de bits 1011, 10, 011, 100 e 0. 
Quando procuramos uma chave a a = aça, ... à, vamos para a esquerda em um nó de profundidade i se a;= O e para a 
direita se a, = 1. Seja S um conjunto de cadeias binárias distintas cujos comprimentos somam n. Mostre como usar uma 
árvore digital para ordenar S lexicograficamente no tempo O(n). No exemplo da Figura 12.6, a saída da ordenação 
deve ser a sequência 0, 011, 10, 100, 1011. 


Figura 12.5 Uma árvore digital que armazena as cadeias de bits 1011, 10, 011, 100 e 0. Podemos determinar a chave de cada nó 
percorrendo o caminho simples da raiz até esse nó. Portanto, não há necessidade de armazenar as chaves nos nós: as chaves são 
mostradas aqui somente para fins ilustrativos. Os nós estão sombreados emtommais escuro se as chaves correspondentes a eles não 
estão na árvore; esses nós estão presentes apenas para estabelecer um caminho até outros nós. 


12-3 Profundidade média de nó em uma árvore de busca binária construída aleatoriamente 


Neste problema, provamos que a profundidade média de um nó em uma árvore de busca binária construída 
aleatoriamente com n nós é O(lg n). Embora esse resultado seja mais fraco que o do Teorema 12.4, a técnica 
que empregaremos revelará uma semelhança surpreendente entre a construção de uma árvore de busca 
binária e a execução do algoritmo Ranvomizen-Quicksorr da Seção 7.3. 


Definimos o comprimento total de caminho P(T) de uma árvore binária T como a soma, contando todos os 
nós x em T, da profundidade do nó x, que denotamos por d(x, 7). 


a. Demonstre que a profundidade média de um nó em Té 


Lins rm 
n 


N xer 


Assim, desejamos mostrar que o valor esperado de P(T) é O(n lg n). 


b. Denotemos por Tre T»as subárvores esquerda e direita da árvore T, respectivamente. Mostre que, se 7 
temn nós, então 


PD=PMT)+PT)+n—1. 


c. Seja P(n) o comprimento total de caminho médio de uma árvore de busca binária construída 
aleatoriamente com n nós. Mostre que 


p= 15 rt) EP(n-i—- D+n—1). 


N io 


d. Mostre que P(n) pode ser reescrito como 


P(m)=2S Pl) + O(n). 
Nk=1 


e. Recordando a análise alternativa da versão aleatorizada do quicksort dada no Problema 73, conclua que 
P(n) = O(n lg n). 


A cada invocação recursiva do quicksort, escolhemos um elemento pivô aleatório para particionar o 
conjunto de elementos que está sendo ordenado. Cada nó de uma árvore de busca binária particiona o 
conjunto de elementos que cai na subárvore digital nesse nó. 


f' Descreva uma implementação do quicksort na qual as comparações para ordenar um conjunto de 
elementos são exatamente iguais às comparações para inserir os elementos em uma árvore de busca 
bmária. (A ordem em que as comparações são efetuadas pode ser diferente, mas as mesmas 
comparações devem ser executadas.) 


12-4 Número de árvores binárias diferentes 


Seja b, o número de árvores binárias diferentes com n nós. Neste problema, você determinará uma fórmula 
para b,, bem como uma estimativa assintótica. 


a. Mostre que bo = 1 e que, paran> 1, 


b. Consultando o Problema 44 para a definição de uma finção geradora, seja B(x) a função geradora 


Bl) = ae 


n=0 


Mostre que B(x) = xB(x)2 + 1 e, consequentemente, um modo de expressar B(x) em forma fechada é 
1 
B(x)=—(1—-v1—4x). 
2X 


A expansão de Taylor de f(x) emtorno do ponto x = a é dada por 


oo 4(k) 
fo Bay. 


k=0 


onde f &)x) é a késima derivada de f avaliada em x. 


c. Mostre que 
1 |2H 
b — 
“o n+ln 
(o nésimo número de Catalan) usando a expansão de Taylor de V1-4x m torno de x = 0. (Se desejar, 
em vez de usar a expansão de Taylor, você pode empregar a generalização da expansão binomial (C.4) 
para expoentes não inteiros n onde, para qualquer número real n e qualquer inteiro k, interpretamos (n) 
(k) 
como n(n — 1)... (n— k + I)/k! se k > 0, e O emcaso contrário.) 
d. Mostre que 
4" 
b =" (1+0(1/n). 
qn?” 
Noras DO CAPÍTULO 


Knuth [211] contém uma boa discussão de árvores de busca binária simples, bem como de muitas variações. 
Parece que as árvores de busca binária foram descobertas independentemente por várias pessoas no final da década de 
1950. Árvores digitais são frequentemente denominadas “tries”, que vem das letras do meio da palavra retrieval em 
inglês, que significa “recobrar” ou “reaver”. Knuth também as discutiu [211]. 

Muttos textos, entre eles as duas primeiras edições deste livro, apresentam um método um pouco mais simples de 
eliminar um nó de uma árvore de busca binária quando ambos os seus filhos estão presentes. Em vez de substituir o nó z 
por seu sucessor y, eliminamos o nó y mas copiamos sua chave e os dados satélites para o nó z. A desvantagem dessa 
abordagem é que o nó realmente eliminado poderia não ser o nó passado para o procedimento de eliminação. Se 
outros componentes de um programa mantiverem ponteiros para nós na árvore, poderiam acabar erroneamente com 
ponteiros “vencidos” para nós que já foram eliminados. Embora seja um pouco mais complicado, o método de 
eliminação apresentado nesta edição deste livro garante que uma chamada para eliminar o nó z elimina o nó z e somente 
o nó z. 

A Seção 15.5 mostrará como construir uma árvore de busca binária ótima quando conhecemos as frequências de 
busca antes da construção da árvore. Isto é, dadas as frequências de busca para cada chave e as frequências de busca 
para valores que caem entre chaves na árvore, construímos uma árvore de busca binária para a qual um conjunto de 
buscas que decorre dessas frequências examina o número mínimo de nós. 

A prova da Seção 12.4 que limita a altura esperada de uma árvore de busca binária construída aleatoriamente se 
deve a Aslam [24]. Martinez e Roura [243] dão algoritmos aleatorizados para inserção e eliminação em árvores de 
busca binária nos quais o resultado de qualquer dessas operações é uma árvore de busca binária aleatória. Contudo, a 
definição desses autores para uma árvore de busca binária é diferente — apenas ligeiramente — da definição de uma 
árvore de busca binária construída aleatoriamente dada neste capítulo. 


] 3 ÁRVORES VERMELHO-PRETO 


O Capítulo 12 mostrou que uma árvore de busca binária de altura h pode suportar qualquer das operações básicas 
de conjuntos dinâmicos — como SearcH, PrEDECESSOR, SUCCEssOR, MINIMUM, MAxIMUM, INSERT E DELETE — NO tempo O(h). 
Assim, as operações de conjuntos são rápidas se a altura da árvore de busca é pequena. Todavia, se a altura da árvore 
é grande, a execução dessas operações poderá ser mais lenta do que com uma lista ligada. Árvores vermelho-preto são 
um dos muitos esquemas de árvores de busca que são “balanceadas” de modo a garantir que operações básicas de 
conjuntos dinâmicos demorem o tempo O(lg n) no pior caso. 


13.1 PROPRIEDADES DE ÁRVORES VERMELHO-PRETO 


Uma árvore vermelho-preto é uma árvore de busca binária com um bit extra de armazenamento por nó: sua cor 
— ela pode ser VermeLHa ou Preta. Restringindo as cores dos nós em qualquer caminho simples da raiz até uma folha, as 
árvores vermelho-preto asseguram que o comprimento de nenhum desses caminhos seja maior que duas vezes o de 
qualquer outro, de modo que a árvore é aproximadamente balanceada. 

Cada nó da árvore contém agora os atributos cor, chave, esquerda, direita e p. Se um filho ou o pai de um nó 
não existir, o atributo do ponteiro correspondente do nó contém o valor nm. Trataremos esses valores nm como se 
fossem ponteiros para folhas (nós externos) da árvore de busca binária e os nós normais que portam chaves como nós 
internos da árvore. 

Uma árvore vermelho-preto é uma árvore de busca binária que satisfaz as seguntes propriedades vermelho- 
preto: 


Todo nó é vermelho ou preto. 
Araiz é preta. 
Toda folha (nr) é preta. 


Se um nó é vermelho, então os seus filhos são pretos. 
Para cada nó, todos os caminhos simples do nó até folhas descendentes contêm o mesmo número de nós pretos. 


A UR ca 


A Figura 13.1 mostra um exemplo de árvore vermelho-preto. 

Por questão de conveniência no tratamento das condições de fronteira em código de árvores vermelho-preto, 
usamos uma única sentinela para representar nm (veja p. 238). Para uma árvore vermelho-preto T, a sentinela T.nil é um 
objeto com os mesmos atributos que um nó comum na árvore. Seu atributo cor é Preto e seus outros atributos — p, 
esquerda, direita e chave — podem adotar valores arbitrários. Como mostra a Figura 13.1(b), todos os ponteiros 
para nn são substituídos por ponteiros para a sentinela T.nil. 

Usamos a sentinela para poder tratar um filho nm de um nó x como um nó comum cujo pai é x. Se bem que 
poderíamos adicionar um nó de sentinela distinto para cada nr na árvore, de modo que o pai de cada nr fosse bem 
definido, essa abordagem desperdiçaria espaço. Em vez disso, usamos a única sentinela Tnil para representar todos os 


nós ni — todas as folhas e o pai da raiz. Os valores dos atributos p, esquerda, direita e chave da sentinela são 
irrelevantes, embora, por conveniência, possamos defini-los durante o curso de um procedimento. 


1(25) 1(39) 


DD ab 6 


( 1 0) 


O 0 
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Figura 13.1 Uma árvore vermelho-preto comnós pretos em negro e nós vermelhos em cinzento. Todo nó em uma árvore vermelho-preto 
é vermelho ou preto, os filhos de umnó vermelho são pretos, e todo caminho simples de um nó até uma folha descendente contém o 
mesmo número de nós pretos. (a) Toda folha, mostrada como um ni, é preta. Cada nó não ni é marcado com sua altura preta: nós niLs 
têmaltura preta igual a 0. (b) A mesma árvore vermelho-preto, mas com cada nr substituído pela única sentinela Tnil, que é sempre 
preta, e cujas alturas pretas são omitidas. O pai da raiz também é a sentinela. (c) A mesma árvore vermelho-preto, mas comfolhas e o pai 
da raiz omitidos completamente. Utilizaremos esse estilo de representação no restante deste capítulo. 


(c) 


Em geral, limitamos nosso interesse aos nós internos de uma árvore vermelho-preto, já que eles contêm os valores 
de chaves. No restante deste capítulo, omitiremos as folhas quando desenharmos árvores vermelho-preto, como mostra 
a Figura 13.1(c). 

Denominamos o número de nós pretos em qualquer caminho simples de um nó x, sem incluir esse nó, até uma 
folha, por altura preta do nó, denotada por bh(x). Pela propriedade 5, a noção de altura preta é bem definida, já que 


todos os caminhos simples descendentes que partem do nó têm o mesmo número de nós pretos. Definimos a altura 
preta de uma árvore vermelho-preto como a altura preta de sua raiz. 
O lema a seguir, mostra por que as árvores vermelho-preto dão boas árvores de busca. 


Lema 13.1 


Uma árvore vermelho-preto com n nós internos tem, no máximo, a altura 2 le(n + 1). 


Prova Começamos mostrando que a subárvore com raiz em qualquer nó x contém no mínimo 2bh(x) — 1 nós internos. 
Provamos essa afirmativa por indução sobre a altura de x. Se a altura de x é 0, então x deve ser uma folha (T.nil), e a 
subárvore com raiz em x realmente contém no mínimo 2h) — 1 = 20 — 1 = O nós internos. Para a etapa indutiva, 
considere um nó x que tenha altura positiva e considere um nó interno x com dois filhos. Cada filho tem uma altura preta 
bh(x) ou bh(x) — 1, dependendo de sua cor ser vermelha ou preta, respectivamente. Visto que a altura de um filho de x 
é menor que a altura do próprio x, podemos aplicar a hipótese indutiva para concluir que cada filho tem, no mínimo, 
2bh(x) — 1 — 1 nós intemos. Assim, a subárvore com raiz em x contém, no mínimo, (2bh6) —=1- D) +(Qbh)=1—- D+] 
= 2bh(x) — 1 nós internos, o que prova a afirmativa. 

Para completar a prova do lema, seja A a altura da árvore. De acordo com a propriedade 4, no mínimo metade 
dos nós em qualquer caminho simples da raiz até uma folha, não incluindo a raiz, deve ser preta. Consequentemente, a 
altura preta da raiz deve ser, no mínimo, A/2; assim, 

n>2h2-1. 


Passando o valor 1 para o lado esquerdo e tomando logaritmos em ambos os lados, temos le(n + )>h/2 ouh <2 
lg(n + 1). 


Uma consequência imediata desse lema é que podemos implementar as operações de conjuntos dinâmicos SearcH, 
Minimum, Maximum, Successor € PrepEcEssor no tempo Ol(lg n) em árvores vermelho-preto, já que cada execução no 
tempo O(h) em uma árvore de busca de altura h (como mostra o Capítulo 12) e em qualquer árvore vermelho-preto em 
n nós é uma árvore de busca com altura O(lg n). (Claro que as referências a nr nos algoritmos do Capítulo 12 teriam de 
ser substituídas por Tnil.) Embora os algoritmos Trer-Inserr e Trer-DeLere do Capítulo 12 sejam executados no tempo 
O(lg n) quando é dada uma árvore vermelho-preto como entrada, eles não suportam diretamente as operações de 
conjuntos dinâmicos Insert e DELETE, já que não garantem que a árvore de busca binária modificada será uma árvore 
vermelho-preto. Porém, veremos nas Seções 13.3 e 13.4 como suportar essas duas operações no tempo O(lg nn). 


Exercícios 


13.1-1 Desenhe, no estilo da Figura 13.1(a) , a árvore de busca binária completa de altura 3 nas chaves (1, 2, ..., 
15). Adicione as folhas nr e dê três cores diferentes aos nós, de tal modo que as alturas pretas das árvores 
vermelho-preto resultantes sejam 2, 3 e 4. 


13.1-2 Desenhe a árvore vermelho-preto que resulta após a chamada a Trer-Inserrna árvore da Figura 13.1 com 
chave 36. Se o nó inserido for vermelho, a árvore resultante é uma árvore vermelho-preto? E se ele for preto? 


13.1-3 Vamos definr uma árvore vermelho-preto relaxada como uma árvore de busca binária que satisfaz as 
propriedades vermelho-preto 1, 3, 4 e 5. Em outras palavras, a raiz pode ser vermelha ou preta. Considere 
uma árvore vermelho-preto relaxada T' cuja raiz é vermelha. Se colorirmos a raiz de T de preto, mas não 
fizermos nenhuma outra mudança em 7, a árvore resultante é uma árvore vermelho-preto? 


13.1-4 Suponha que “absorvemos” todo nó vermelho em uma árvore vermelho-preto em seu pai preto, de modo que 
os filhos do nó vermelho se tornem filhos do pai preto. (Ignore o que acontece com as chaves.) Quais são os 


graus possíveis de um nó preto depois que todos os seus filhos vermelhos são absorvidos? O que você pode 
dizer sobre as profundidades das folhas da árvore resultante? 


13.1-5 Mostre que o comprimento do mais longo caminho simples de um nó x em uma árvore vermelho-preto até 
uma folha descendente é, no máximo, duas vezes o do caminho simples mais curto do nó x até uma folha 
descendente. 


13.1-6 Qualé o maior número possível de nós internos em uma árvore vermelho-preto com altura preta A? Qual é o 
menor número possível? 


13.1-7 Descreva uma árvore vermelho-preto em n chaves que permita a maior razão possível entre nós internos 
vermelhos e nós internos pretos. Qual é essa razão? Qual árvore tem a menor razão possível e qual é essa 
razão? 


13.2 Rorações 


As operações de árvores de busca Trer-Inserr E Trer-DeLere, quando executadas em uma árvore vermelho-preto 
com n chaves, demoram o tempo Oflg n). Como elas modificam a árvore, o resultado pode violar as propriedades 
vermelho-preto enumeradas na Seção 13.1. Para restabelecer essas propriedades, devemos mudar as cores de alguns 
nós na árvore e também mudar a estrutura de ponteiros. 

Mudamos a estrutura de ponteiros por meio de rotação, uma operação local em uma árvore de busca que 
preserva a propriedade de árvore de busca binária. A Figura 13.2 mostra os dois tipos de rotações: rotações para a 
esquerda e rotações para a direita. Quando fazemos uma rotação para a esquerda em um nó x, supomos que seu filho à 
direita y não é Tnil; x pode ser qualquer nó na árvore cujo filho à direita não é Tnil. A rotação para a esquerda 
“pivota” ao redor da ligação de x para y. Transforma y na nova raiz da subárvore, com x como filho à esquerda de y e 
o filho à esquerda de y como filho à direita de x. 

O pseudocódigo para Lerr-Rorare supõe que x.direita £ Tnil e que o pai da raiz é Tnil. 


LEFT-ROTATE(T; x) 

1 y=x.direita /l define y 

2 x.direita = y.esquerda || transforma a subárvore à esquerda de y na subárvore à direita de x 
3 if y.esquerda = T.nil 

4 y.esquerda.p = x 


5yp=xp ll ligao paidexay 
6 ifx.p == Tnil 

7 Traiz=y 

8 elseif x == x.p.esquerda 


9 x.p. esquerda = y 

10 else x.p.direita = y 

11 y.esquerda = x /l coloca x à esquerda de y 
12 xp=y 


A Figura 13.3 mostra um exemplo de como Lerr-Rorare modifica uma árvore de busca binária. O código para Ricur- 
Rorarg é simétrico. Lerr-rotaTE € RigHT-RoratE são executados no tempo O(1). Somente ponteiros são alterados por uma 
rotação; todos os outros atributos em um nó permanecem os mesmos. 


| = | 


LerT-ROTATE(T, x) 
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Figura 13.2 As operações de rotação em uma árvore de busca binária. A operação lerr-Rorare(T, x) transforma a configuração dos dois 
nós à direita na configuração à esquerda mudando um número constante de ponteiros. A operação inversa Ricur-Rorare(T, y) trans forma 
a configuração à esquerda na configuração à direita. As letras a, B e g representam subárvores arbitrárias. Uma operação de rotação 
preserva a propriedade de árvore de busca binária: as chaves em a precedem x.chave, que precede as chaves em, que precedem 
y.chave, que precede as chaves emg. 


LEFT-ROTATE(T, x) 


Figura 13.3 Umexemplo de como o procedimento lerr-Rorare(T, x) modifica uma árvore de busca binária. Os percursos de árvore em in- 
ordem da árvore de entrada e a árvore modificada produzem a mesma listagem de valores de chaves. 


Exercícios 
13.2-1 Escreva pseudocódigo para Ricnr-Rorare. 


13.2-2 Demonstre que, em toda árvore de busca binária de n nós, existem exatamente n — 1 rotações possíveis. 


13.2-3 Sejama, be c nós arbitrários nas subárvores a, 5 e y, respectivamente, na árvore da direita da Figura 13.2. 
Como as profundidades de a, b e c mudam quando é realizada uma rotação para a esquerda no nó x na 


figura? 


13.2-4 Mostre que qualquer árvore de busca binária arbitrária de n nós pode ser transformada em qualquer outra 
árvore de busca binária arbitrária de n nós por meio de O(n) rotações. (Sugestão: Primeiro, mostre que, no 
máximo, n — 1 rotações para a direita são suficientes para transformar a árvore em uma cadeia orientada para 
a drreita.) 


13.2-5 X 


Dizemos que uma árvore de busca binária 7, pode ser convertida para a direita na árvore de busca binária 
T, se for possível obter 77 de 7, por meio de uma série de chamadas a Ricnr-Rorare. Dê um exemplo de duas 
árvores 7, e T, tais que 7, não possa ser convertida para a direita em 7. Em seguida, mostre que, se uma 
árvore T, pode ser convertida para a direita em T,, ela pode ser convertida para a direita por meio de O(n,) 
chamadas a Ricur-Rorare. 


13.3 Inserção 


Podemos inserir um nó em uma árvore vermelho-preto de n nós no tempo O(lg n). Para tal, usamos uma versão 
ligeiramente modificada do procedimento Trer-Inserr (Seção 12.3) para inserir o nó z na árvore 7 como se ela fosse 
uma árvore de busca binária comum e depois colorimos z de vermelho. (O Exercício 13.3-1 pede que você explique 
por que escolhemos que o nó z é vermelho, em vez de preto.) Para garantir que as propriedades vermelho-preto serão 
preservadas, chamamos um procedimento auxiliar RB-Inserr-Fixur para colorir novamente os nós e executar rotações. A 
chamada RB-Inserr(T, z) insere o nó z — cuja chave considera-se já ter sido inserida — na árvore vermelho-preto 7. 


RB-INsERT(T,z) 
y = Tunil 
HecloraiE 
while x = T.nil 
yV=X 
if z.chave < x.chave 
x = x.esquerda 
else x = x.direita 
Zp=y 
ify== Til 
E qniz E 
elseif z.chave < x.chave 
v.esquerda = z 
else y.direita = z 
z.esquerda = T.nil 
z.direita = T.nil 
Z.COY — RED 
E; RB-InseRT-Fixup(T,z) 
Há quatro diferenças entre os procedimentos Trer-Inserr e RB-Inserr. Primeiro, todas as instâncias de ni em Trer- 
Inserr são substituídas por T.nil. Em segundo lugar, definimos z.esquerda e z.direita como T.nil nas linhas 14 e 15 de 
RB-Inserr, a fim de manter a estrutura de árvore adequada. Em terceiro lugar, colorimos z de vermelho na linha 16. Em 


quarto lugar, visto que colorir z de vermelho pode causar uma violação de uma das propriedades vermelho-preto, 
chamamos RB-Inserr-Fixur(T, z) na linha 17 de RB-Inserr para restaurar as propriedades vermelho-preto. 
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RB-INsERT-Fixup(T, z) 


Ê while z.p.cor == VERMELHO 

2 if z.p == z.p.p.esquerda 

3 y = z.p.p.direita 

4 if y.cor = VERMELHO 

5 Z.p.cor = PRETO // caso 1 
6 y.cor = PRETO // caso 1 
' Z.p.p.cor = VERMELHO // caso 1 
8 Z=Zp.p // caso 1 
9 else if z = z.p.direita 
10 Z=zp // caso 2 
11 LerT-ROTATE(T, Z) // caso 2 
12 Z.p.cor = PRETO // caso 3 
13 Z.p.p.cor = VERMELHO // caso 3 
14 RicHT-ROTATE(T, Z.p.p) // caso 3 
15 else (igual à cláusula then 


com “direita” e “esquerda” trocadas) 
16 T.raiz.cor = PRETO 


Para entender como RB-Inserr-Fixur funciona, desmembraremos nosso exame do código em três etapas principais. 
Primeiro, determinaremos quais violações das propriedades vermelho-preto são introduzidas em RB-Inserr quando o nó 
z é inserido e colorido de vermelho. Em segundo lugar, examinaremos a meta global do laço while das linhas 115. Por 
fim, exploraremos cada um dos três casos! dentro do corpo do laço while e veremos como eles cumprem essa meta. A 
Figura 13.4 mostra como RB-Inserr-Fixur funciona em uma amostra de árvore vermelho-preto. 

Quais das propriedades vermelho-preto podem ser violadas na chamada a RB-Inserr-Fixur? A propriedade 1 
certamente continua válida, bem como a propriedade 3, já que ambos os filhos do nó vermelho recém-inserido são a 
sentinela Tnil. A propriedade 5, que diz que o número de nós pretos é igual em todo caminho simples de um dado nó, 
também é satisfeita porque o nó z substitui a sentinela (preta), e o nó z é vermelho com filhos sentinelas. Assim, as 
únicas propriedades que poderiam ser violadas são a propriedade 2, que exige que a raiz seja preta, e a propriedade 4, 
que diz que um nó vermelho não pode ter um filho vermelho. Ambas as violações possíveis se devem a z ser colorido de 
vermelho. A propriedade 2 é violada se z é a raiz, e a propriedade 4 é violada se o pai de z é vermelho. A Figura 
13.4(a) mostra uma violação da propriedade 4 após a inserção do nó z. 
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Figura 13.4 A operação de RB-inseRr-fixur. (a) Um nó z depois da inserção. Como z e seu pai z.p são vermelhos, ocorre uma violação da 
propriedade 4. Visto que o tio y de z é vermelho, o caso 1 no código se aplica. Colorimos novamente os nós e movimentamos o ponteiro 
z para cima na árvore, resultando na árvore mostrada em (b). Mais uma vez, z e seu pai são vermelhos, mas o tio y de z é preto. Como z é 
o filho à direita de z.p, o caso 2 se aplica. Executamos uma rotação para a esquerda e a árvore resultante é mostrada em (c). Agora, z é o 
filho à esquerda de seu pai, e o caso 3 se aplica. Colorindo novamente e executando uma rotação para a direita, é produzida a árvore em 
(d), que é uma árvore vermelho-preto válida. 


O laço while nas linhas 1—-15 mantém o seguinte invariante de três partes no mício de cada iteração do laço: 


a. O nóz é vermelho. 
b. Sezpéa raiz, então z.p é preto. 


c. Sea árvore violar qualquer das propriedades vermelho-preto, ela violará no máximo uma delas, e a violação será 
da propriedade 2 ou da propriedade 4. Se a árvore violar a propriedade 2 é porque z é a raiz e é vermelho. Se a 
árvore violar a propriedade 4 é porque z e z.p são vermelhos. 


A parte (c), que trata das violações de propriedades vermelho-preto, é mais fundamental para mostrar que RB- 
Inserr-Fixur restaura as propriedades vermelho-preto que as partes (a) e (b), que utilizamos no caminho para entender 
situações no código. Como nos concentraremos no nó z e nós próximos a ele na árvore, é útil saber pela parte (a) que z 
é vermelho. Usaremos a parte (b) para mostrar que o nó z.p.p existe quando nos referimos a ele nas linhas 2, 3, 7,8, 
13el4. 

Lembre-se de que precisamos mostrar que um invariante de laço é verdadeiro antes da primeira iteração do laço, 
que cada iteração mantém o invariante de laço e que o invariante de laço nos dá uma propriedade útil ao término do 
laço. 

Começamos com os argumentos de inicialização e término. Então, à medida que examinarmos com mais detalhes 
como o corpo do laço funciona, demonstraremos que o laço mantém o invariante em cada iteração. Durante o 
processo, também demonstraremos que cada iteração do laço tem dois resultados possíveis: o ponteiro z sobe a árvore 
ou executamos algumas rotações e o laço termina. 


Inicialização: Antes da primeira iteração do laço, começamos com uma árvore vermelho-preto sem nenhuma 
violação e acrescentamos um nó vermelho z. Mostramos que cada parte do invariante é válida no momento em 
que RB-Inserr-Frxur é chamado: 


a. Quando RB-Inserr-Fixur é chamado, z é o nó vermelho que foi acrescentado. 
b. Se plz] é a raiz, então z.p começou preto e não mudou antes da chamada de RB--Inserr-Frxur. 


c. Já vimos que as propriedades 1, 3 e 5 são válidas quando RB-Inserr-Frxur é chamado. Se a árvore violar 
a propriedade 2, a raiz vermelha deve ser o nó z recém-acrescentado, que é o único nó interno na árvore. 
Como o pai e ambos os filhos de z são a sentinela, que é preta, a árvore tampouco viola a propriedade 4. 
Assim, essa violação da propriedade 2 é a única violação de propriedades vermelho-preto na árvore 
inteira. Se a árvore violar a propriedade 4, como os filhos do nó z são sentinelas pretas e a árvore não 
tinha nenhuma outra violação antes de z ser acrescentado, a violação tem de ser porque z e z.p são 
vermelhos. Além disso, a árvore não viola nenhuma outra propriedade vermelho-preto. 


Término: Quando o laço termina, é porque z.p é preto. (Se z é a raiz, então z.p é a sentinela T.nil, que é preta.) 
Assim, a árvore não viola a propriedade 4 no término do laço. Pelo invariante de laço, a única propriedade que 
poderia deixar de ser válida é a propriedade 2. A linha 16 restaura também essa propriedade, de modo que, 
quando RB-Inserr-Fixur termina, todas as propriedades vermelho-preto são válidas. 


Manutenção: Na realidade, precisamos considerar seis casos no laço while, mas três deles são simétricos aos 
outros três, dependendo de a linha 2 determinar que o pai z.p de z é um filho à esquerda ou um filho à direita do 
avô z.p.p de z. Damos o código somente para a situação na qual z.p é um filho à esquerda. O nó z.p.p existe, já 
que, pela parte (b) do invariante de laço, se z.p é a raiz, então z.p é preto. Visto que entramos em uma iteração 
de laço somente se z.p é vermelho, sabemos que z.p não pode ser a raiz. Consequentemente, z.p.p existe. 


Distinguimos o caso 1 dos casos 2 e 3 pela cor do irmão do pai de z, ou “tio”. A linha 3 faz y apontar para o tio 
z.p.p.direita de z, e a linha 4 testa a cor de y. Se y é vermelho, então executamos o caso 1. Do contrário, o controle 
passa para os casos 2 e 3. Em todos os três casos, o avô z.p.p de z é preto, já que seu pai z.p é vermelho, e a 
propriedade 3 é violada apenas entre z e z.p. 


Caso 1: o tio de y de z é vermelho 


A Figura 13.5 mostra a situação para o caso 1 (linhas 5-8), que ocorre quando z.p e y são vermelhos. Como z.p.p é 
preto, podemos colorir z.p e y de preto, o que corrige o problema de z e z.p serem vermelhos, e podemos colorir z.p.p 
de vermelho, mantendo assim a propriedade 5. Então repetimos o laço while com z.p.p como o novo nó z. O ponteiro 
z sobe dois níveis na árvore. Agora mostramos que o caso 1 mantém o invariante de laço no início da próxima iteração. 
Usamos z para denotar o nó z na iteração atual, e z'=z.p.p para denotar o nó que será denominado z no teste da linha 
1 na iteração seguinte. 


a. Como essa iteração colore z.p.p de vermelho, o nó z” é vermelho no início da próxima iteração. 

b. Onó67'.p é z.p.p.p nessa iteração, e a cor desse nó não se altera. Se esse nó é a raiz, ele era preto antes dessa 
iteração e permanece preto no início da próxima iteração. 

c. Já mostramos que o caso 1 mantém a propriedade 5 e não introduz uma violação das propriedades 1 ou 3. 


Se o nó z” é a raiz no início da próxima iteração, então o caso 1 corrigiu a única violação da propriedade 
4 nessa iteração. Como zº é vermelho e é a raiz, a propriedade 2 passa a ser a única violada, e essa 
violação se deve a z”. 


Se o nó z” não é a raiz no início da próxima iteração, então o caso 1 não criou uma violação da 
propriedade 2. O caso 1 corrigiu a única violação da propriedade 4 que existia no início dessa iteração. 
Então, transformou z” em vermelho e deixou z'.p como estava. Se z'.p era preto, não há nenhuma 
violação da propriedade 4. Se z'.p era vermelho, colorir z” de vermelho criou uma violação da 
propriedade 4 entre 7” e z'.p. 
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Figura 13.5 O caso 1 do procedimento RB-inseRr-fixur. A propriedade 4 é violada, já que z e seu pai z.p são vermelhos. A mesma ação é 
adotada se (a) z é um filho à direita ou (b) z é um filho à esquerda. Cada uma das subárvores, q, B, g, d e e tem uma raiz preta e cada uma 
tema mesma altura preta. O código para o caso 1 muda as cores de alguns nós, preservando a propriedade 5: todos os caminhos simples 
descendentes de umnó até uma folha têm o mesmo número de pretos. O laço while continua como avô z.p.p do nó z como o novo z. 
Qualquer violação da propriedade 4 só pode ocorrer agora entre o novo z, que é vermelho, e seu pai, que também é vermelho. 


Caso 2: o tio y de z é preto e z é um filho à direita 


Caso 3: o tio y de z é preto e z é um filho à esquerda 


Nos casos 2 e 3, a cor do tio y de z é preta. Distinguimos os dois casos conforme z seja um filho à direita ou à esquerda 
de z.p. As linhas 10 e 11 constituem o caso 2, que é mostrado na Figura 13.6, juntamente com o caso 3. No caso 2, o 
nó z é um filho à direita de seu pai. Usamos imediatamente uma rotação para a esquerda para transformar a situação no 


caso 3 (linhas 12-14 ), na qual o nó z é um filho à esquerda. Como z e z.p são vermelhos, a rotação não afeta a altura 
preta dos nós nem a propriedade 5. Quer entremos no caso 3 diretamente ou por meio do caso 2, o tio y de z é preto, 
já que, do contrário, teríamos executado o caso 1. Além disso, o nó z.p.p existe, visto que demonstramos que esse nó 
existia no momento em que as linhas 2 e 3 foram executadas e, após z subir um nível na linha 10 e depois descer um 
nível na linha 11, a identidade de z.p.p permanece inalterada. No caso 3, executamos algumas mudanças de cores e 
uma rotação para a direita, o que preserva a propriedade 5; em seguida, visto que não temos mais dois nós vermelhos 
em uma linha, encerramos. O corpo do laço while não é executado outra vez, já que agora z.p é preto. 

Agora, mostramos que os casos 2 e 3 mantêm o invariante de laço. (Como acabamos de demonstrar, z.p será preto no 
próximo teste na linha 1 e o corpo do laço não será executado novamente.) 


a. O caso 2 faz z apontar para z.p, que é vermelho. Nenhuma mudança adicional em z ou em sua cor ocorre nos 
casos 2 e 3. 

b. O caso 3 torna z.p preto, de modo que, se z.p é a raiz no início da próxima iteração, ele é preto. 

c. Como ocorre no caso de 1, as propriedades 1, 3 e 5 são mantidas nos casos 2 e 3. 
Visto que o nó z não é a raiz nos casos 2 e 3, sabemos que não há nenhuma violação da propriedade 2. Os casos 
2 e 3 não introduzem uma violação da propriedade 2, já que o único nó que se tornou vermelho torna-se um filho 
de um nó preto pela rotação no caso 3. 
Os casos 2 e 3 corrigem a única violação da propriedade 4 e não introduzem outra violação. Mostrando que cada 
iteração do laço mantém o invariante, também mostramos que RB--Inserr-Fixur restaura corretamente as 
propriedades vermelho-preto. 


Análise 


Qual é o tempo de execução de RB-Inserr? Visto que a altura de uma árvore vermelho-preto em n nós é O(lg n), 
as linhas 1-16 de RB-Inserr levam o tempo O(lg n). Em RB-Inserr-Fixur, O laço while só é repetido se o caso 1 ocorrer, 
e então o ponteiro z sobe dois níveis na árvore. 


ôy B 
[oi B )z z e. bi 
B y a B 
Caso 2 Caso 3 


Figura 13.6 Casos 2 e 3 do procedimento RB-inszRr-fixur. Como no caso 1, a propriedade 4 é violada no caso 2 ou no caso 3 porque z e 
seu pai z.p são vermelhos. Cada uma das subárvores, q, , g e d tem uma raiz preta (a, B e g pela propriedade 4, e d porque, caso 
contrário, estaríamos no caso 1) e cada uma tem a mesma altura preta. Trans formamos o caso 2 no caso 3 por uma rotação para a 
esquerda, o que preserva a propriedade 5: todos os caminhos simples descendentes de umnó até uma folha têm o mesmo número de 
pretos. O caso 3 provoca algumas mudanças de cores e uma rotação para a direita, o que também preserva a propriedade 5. Em seguida, 
o laço while termina porque a propriedade 4 é satisfeita: não há mais dois nós vermelhos em seguida. 


Portanto, o número total de vezes que o laço while pode ser executado é Oflg nn). Assim, RB-Inserr demora um 
tempo total O(lg n). Além disso, ele nunca executa mais de duas rotações, já que o laço while termina se o caso 2 ou o 
caso 3 for executado. 


Exercícios 


13.3-1 Na linha 16 de RB-Inserr, atribuímos o nó z recém-inserido com vermelho. Note que, se tivéssemos optado 
por atribuir z com preto, a propriedade 4 de uma árvore vermelho-preto não seria violada. Por que não 
optamos por definir z como preto? 


13.3-2 Mostre as árvores vermelho-preto que resultam após a inserção sucessiva das chaves 41, 38, 31, 12, 19,8 
em uma árvore vermelho-preto inicialmente vazia. 


13.3-3 Suponha que a altura preta de cada uma das subárvores a, 5, y, d, nas Figuras 13.5 e 13.6 seja k. Identifique 
cada nó em cada figura com sua altura preta para verificar se a transformação indicada preserva a 
propriedade 5. 


13.3-4 O professor Teach está preocupado que RB-Inserr-Fixur possa atribuir T.nil.cor como vermeLHO, Caso em que 
o teste da linha 1 não faria o laço terminar quando z fosse a raiz. Mostre que a preocupação do professor é 
infundada, demonstrando que RB-Inserr-Fixur nunca atribui T.nil.cor com vermeLHO. 


13.3-5 Considere uma árvore vermelho-preto formada pela inserção de n nós com RB-Inserr. Mostre que, se n > 1, 
a árvore tem, no mínimo, um nó vermelho. 


13.3-6 Sugira como implementar RB-Inserr de maneira eficiente se a representação para árvores vermelho-preto não 
incluir nenhum armazenamento para ponteiros superiores. 


13.4 Friminação 


Como as outras operações básicas em uma árvore vermelho-preto de n nós, a eliminação de um nó demora o 
tempo O(lg n). Eliminar um nó de uma árvore vermelho-preto é um pouco mais complicado que inserir um nó. 

O procedimento para eliminar um nó de uma árvore vermelho-preto é baseado no procedimento RB-DeLere 
(Seção 12.3). Primeiro, precisamos customizar a sub-rotina TranspLANT que Trer-DeLere chama, de modo que ela se 
aplique a uma árvore vermelho-preto: 


RB-TRANSPLANT(T, U, v) 


ifu.p == Tunil 
E raiz = v 
elseif u == u.p.esquerda 


u.p.esquerda = v 
else u.p.direita = v 


vp=up 


OS UR QN 


Há duas diferenças entre o procedimento RB-TranspLaNtTE O procedimento TranspLANT. À primeira é que a linha 1 
referencia a sentinela Tnil em vez de nm. A segunda é que a atribuição a .p na linha 6 ocorre incondicionalmente: 
podemos atribuir a v.p mesmo que aponte para a sentinela. De fato, exploraremos a capacidade de atriburr a .p 
quando = Tnil. 

O procedimento RB-DeLerr é como o procedimento Trer-Derere, porém com linhas adicionais de pseudocódigo. 
Algumas dessas linhas adicionais rastreiam um nó y que poderia causar violações das propriedades vermelho-preto. 
Quando queremos eliminar o nó z e z tem menos do que dois filhos, z é removido da árvore e queremos que y seja z. 
Quando z tem dois filhos, y deve ser o sucessor de z, e y passa para a posição de z na árvore. Também lembramos a 
cor de y antes de ele ser eliminado da árvore ou passar para dentro dela, e rastreamos o nó x que passa para a posição 
original de y na árvore porque o nó x também poderia causar violações das propriedades vermelho-preto. Após 


eliminar o nó z, RB-DeLere chama um procedimento auxiliar RB-DeLere-Fixur, que muda as cores e executa rotações para 
restaurar as propriedades vermelho-preto. 


RB-DeLETE(T, z) 


| V=Z 

2 y-cor-original = y.cor 

E if z.esquerda == T.nil 

+ x = z.direita 

5 RB-TRANSPLANT(T, z, z.direita) 
6 elseif z.direita == T-.nil 

z x = z.esquerda 

8 RB-TRANSPLANT(T, z, z.esquerda) 
9 else y = TrEE-MINIMUM(Z.direita) 

10 y -cor-original = y.cor 

E x =y.direita 

12 E 

13 Xp=y 

14 else RB-TRANSPLANT(T, y, y.direita) 
18 y.direita = z.direita 

16 y.direita.p = y 

1X RB-TRANSPLANT(T, Z, y) 

18 y.esquerda = z.esquerda 

19 y.esquerda.p = y 

20 Y.cor = Zz.cor 

21 if y-cor-original == PRETO 

2a RB-DELETE-Fixup(T, x) 


Embora RB-Derere contenha quase duas vezes o número de linhas de pseudocódigo de Trer-Derere, os dois 
procedimentos têm a mesma estrutura básica. Podemos encontrar cada linha de Trer-DeLere dentro de RB-DeLere (se 
substiturmos Tnil por NIL e as chamadas a RB-TranspLant por chamadas a TranspLANT) se executado sob as mesmas 
condições. 

Apresentamos a seguir, as outras diferenças entre os dois procedimentos: 


*  Mantemos o nó y como o nó que é retirado da árvore ou que é passado para dentro dela. A linha 1 faz y apontar 
para o nó z quando z tiver menos que dois filhos e, portanto, é removido. Quando z tem dois filhos, a linha 9 faz y 
apontar para o sucessor de z exatamente como em Trer-DeLere, € ) passa para a posição de z na árvore. 

* Como a cor do nó y pode mudar, a variável y-cor-original armazena a cor de y antes de ocorrer qualquer 
mudança. As linhas 2 e 10 definem essa variável imediatamente após atribuições a y. Quando z tem dois filhos, 
então y £z e o nó y passa para a posição original do nó z na árvore vermelho-preto; a linha 20 dá a y a mesma cor 
de z. Precisamos salvar a cor original de y para testá-la no final de RB-DeLerE; se O nó era preto, remover ou mover 
y poderá causar violações das propriedades vermelho-preto. 

* Como discutimos, rastreamos o nó x que passa para a posição original do nó y. As atribuições nas linhas 4, 7 e 11 
fazem x apontar para o único filho de y ou, se y não tiver filhos, para a sentinela Tnil. (Lembre-se de que 
dissemos, na Seção 12.3, que y não tem nenhum filho à esquerda.) 

* Visto que o nó x passa para a posição original de y, o atributo x.p é sempre definido para apontar para a posição 
original do pai de y na árvore, mesmo que x seja, de fato, a sentinela Tnil. A menos que z seja o pai original de y 
(o que ocorre somente quando z tiver dois filhos e seu sucessor y for o filho à direita de z), a atribuição a x.p 
ocorre na linha 6 de RB-TRANsPLANT. 


(Observe que, quando RB-Transpranr é chamado nas linhas 5, 8 ou 14, o terceiro parâmetro passado é o mesmo 

que x.) 

Entretanto, quando o pai original de y é z, não queremos que x.p aponte para o pai original de y, visto que estamos 

elimmando aquele nó da árvore. Como o nó y subirá para ocupar a posição de z na árvore, atribuir y a x.p na linha 

13 faz com que x.p aponte para a posição original do pai de y, mesmo que x = Tnil. 

* Por fim se o nó y era preto, pode ser que tenhamos introduzido uma ou mais violações das propriedades 
vermelho-preto e, por isso, chamamos RB-DeLere-FIXUP na linha 22 para restaurar as propriedades vermelho- 
preto. Se y era vermelho, as propriedades vermelho--preto ainda são válidas quando y é eliminado ou movido, 
pelas seguntes razões: 

1. Nenhuma altura preta na árvore mudou. 

2. Nenhum par de nós vermelhos tornou-se adjacente. Como y toma o lugar de z na árvore, juntamente com a 
cor de z, não podemos ter dois nós vermelhos adjacentes na nova posição de y na árvore. Além disso, se 
não era o filho à direita de z, então x, o filho à direita original de y, substitui y na árvore. Se y é vermelho, 
então x deve ser preto; portanto, substituir y por x não pode fazer com que dois nós vermelhos se tornem 
adjacentes. 

3. Visto que y não poderia ter sido a raiz se fosse vermelho, a raiz permanece preta. 


Se o nó y era preto, poderão surgir três problemas, que a chamada de RB-DeLere-Fixur remediará. Primeiro, se 
era a raiz e um filho vermelho de y se torna a nova raiz, violamos a propriedade 2. Segundo, se x e y.p (que agora 
também é x.p) eram vermelhos, então violamos a propriedade 4. Terceiro, mover y pela árvore faz com que qualquer 
caminho simples que continha y anteriormente tenha um nó preto a menos. Assim, a propriedade 5 agora é violada por 
qualquer ancestral de y na árvore. Podemos corrigir a violação da propriedade 5 dizendo que o nó x, que agora ocupa 
a posição original de ), tem um preto “extra”. Isto é, se somarmos 1 à contagem de nós pretos em qualquer caminho 
simples que contenha x, então, por essa interpretação, a propriedade 5 se mantém válida. Quando extraímos ou 
movimentamos o nó preto y, “impomos” sua negritude ao nó x. O problema é que agora o nó x não é nem vermelho 
nem preto, o que viola a propriedade 1. Em vez disso, o nó x é “duplamente preto” ou “vermelho e preto” e contribui 
com 2 ou 1, respectivamente, para a contagem de nós pretos em caminhos simples que contêm x. O atributo cor de x 
ainda será vermeLHo (se x é vermelho e preto) ou preto (se x é duplamente preto). Em outras palavras, a consequência 
desse preto extra em um nó é que x apontará para o nó em vez de para o atributo cor. 

Agora podemos ver o procedimento RB-DeLere-Fixur € examinar como ele devolve as propriedades vermelho-preto 
à árvore de busca. 


RB-DELETE-FIxUP(T; x) 


1 while x = T.raiz and x.cor == PRETO 

2 if x == x.p.esquerda 

3 w = x.p.direita 

4 if w.cor == VERMELHO 

5 W.cor = PRETO /l caso 1 
6 X.p.cor = VERMELHO !l caso 1 
7 LEFT-ROTATE(T, x.p) /l caso 1 
8 w = x.p.direita /l caso 1 
9 if w.esquerda.cor == PRETO and iww.direita.cor == PRETO 

10 w.cor = VERMELHO /! caso 2 
1 X=Xp /l caso 2 
12 else if w.direita.cor == PRETO 

13 w.esquerda.cor = PRETO !l caso 3 
14 w.cor = VERMELHO /l caso 3 
15 RiGHT-ROTATE(T ww) /l caso 3 


16 w = x.p.direita /l caso 3 


O procedimento RB-Deere-Fixur restaura as propriedades 1, 2 e 4. Os Exercícios 13.4-1 e 13.4-2 pedem que 
você mostre que o procedimento restaura as propriedades 2 e 4 e, assim, no restante desta seção focalizaremos a 
propriedade 1. O objetivo do laço while nas linhas 1-22 é mover o preto extra para cima na árvore até 


1. x apontar para um nó vermelho e preto, caso em que colorimos x (isoladamente) de preto na linha 23; 
2. x apontar para a raiz, caso em que simplesmente “removemos” o preto extra; ou 
3. que, executadas as operações adequadas de rotações e novas colorações, saímos do laço. 


Dentro do laço while, x sempre aponta para um nó não raiz duplamente preto. Determinamos na linha 2 se x é um 
filho à esquerda ou um filho à direita de seu pai x.p. (Já fornecemos o código para a situação na qual x é um filho à 
esquerda; a situação na qual x é um filho à direita — linha 22 — é simétrica.) Mantemos um ponteiro w para o irmão de 
x. Visto que o nó x é duplamente preto, o nó w não pode ser Tnil porque, caso contrário, o número de pretos no 
caminho simples de x.p até a folha w (simplesmente preta) seria menor que o número no caminho simples de x.p até x. 

Os quatro casos? no código aparecem na Figura 13.7. Antes de examinar cada caso em detalhes, vamos ver, de 
um modo mais geral, como podemos comprovar que, em cada um dos casos, a transformação preserva a propriedade 
5. A ideia-chave é que, em cada caso, a transformação aplicada preserva o número de nós pretos (incluindo o preto 
extra de x) da raiz da subárvore (inclusive) mostrada até cada uma das subárvores a, 5,..., . Assim, se a propriedade 5 
é válida antes da transformação, continua a ser válida depois dela. Por exemplo, na Figura 13.7(a), que ilustra o caso 1, 
o número de nós pretos da raiz até a subárvore a ou É é 3, antes e também depois da transformação. (Mais uma vez, 
lembre-se de que o nó x adiciona um preto extra.) De modo semelhante, o número de nós pretos da raiz até qualquer 
das subárvores y, dee é2, antes e também depois da transformação. Na Figura 13.7(b), a contagem deve envolver 
o valor c do atributo cor da raiz da subárvore mostrada, que pode ser vermeLHO OU Preto. Se definirmos 
contador(vermeLHo) = O e contador(rrero) = 1, o número de nós pretos da raiz até o é 2 + contador(c), antes e também 
depois da transformação. Nesse caso, após a transformação, o novo nó x tem o atributo cor c, mas na realidade é 
vermelho e preto (se c = vermeLHo) ou duplamente preto (se c = preto). Os outros casos podem ser verificados de 
maneira semelhante (veja o Exercício 13.4-5.) 


Caso 1: o irmão w de x é vermelho 


O caso 1 (linhas 5-8 de RB-Decere-Frxur e Figura 13.7(a)) ocorre quando o nó w, o irmão do nó x, é vermelho. Visto 
que w deve ter filhos pretos, podemos trocar as cores de w e x.p e depois executar uma rotação para a esquerda em 
x.p sem violar qualquer das propriedades vermelho-preto. O novo irmão de x, que é um dos filhos de w antes da 
rotação, agora é preto e, assim, convertemos o caso 1 no caso 2, 3 ou4. 

Os casos 2, 3 e 4 ocorrem quando o nó w é preto; eles são distinguidos pelas cores dos filhos de w. 
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Figura 13.7 Os casos no laço while do procedimento RB-DeLere-fixur. Nós emnegro têm atributos cor rRero, nós sombreados em tom 
mais escuro têmatributos cor veRmEeLHO € nós sombreados em tom mais claro têmatributos cor representados por c e c”, que podemser 
vERMELHO OU PRETO. Às letras q, 3, ..., representam subárvores arbitrárias. Cada caso trans forma a configuração à esquerda na 
configuração à direita mudando algumas cores e/ou executando uma rotação. Qualquer nó apontado por x tem umpreto extra e é 
duplamente preto ou vermelho e preto. Somente o caso 2 faz o laço se repetir. (a) O caso 1 é transformado no caso 2, 3 ou 4 trocando as 
cores dos nós B e De executando uma rotação para a esquerda. (b) No caso 2, o preto extra representado pelo ponteiro x é deslocado 
para cima na árvore colorindo o nó D de vermelho e ajustando x para apontar para o nó B. Se entrarmos no caso 2 por meio do caso 1,0 
laço while termina, já que o novo nó x é vermelho e preto, e portanto o valor c de seu atributo cor é VERMELHO. (ce) O caso 3 é 
transformado no caso 4 trocando as cores dos nós Ce De executando uma rotação para a direita. (d) O caso 4 remove o preto extra 
representado por x mudando algumas cores e executando uma rotação para a esquerda (sem violar as propriedades vermelho-preto) e, 
então, o laço termina. 


Caso 2: o irmão w de x é preto e os filhos de w são pretos 


No caso 2 (linhas 10-11 de RB-Decere-Foxur e Figura 13.7(b)), os filhos de w são pretos. Visto que w também é 
preto, retiramos um preto de x e também de w, deixando x com apenas um preto e deixando w vermelho. Para 
compensar a remoção de um preto de x e de w, gostaríamos de adicionar um preto extra a x.p, que era originalmente 
vermelho ou preto. Fazemos isso repetindo o laço while com x.p como o novo nó x. Observe que, se entrarmos no 
caso 2 por meio do caso 1, o novo nó x será vermelho e preto, já que o x.p original era vermelho. Consequentemente, 
o valor c do atributo cor do novo nó x é vermeLHo, e o laço termina quando testa a condição de laço. Então colorimos o 
novo nó x de preto (simplesmente) na linha 23. 


Caso 3: o irmão W de X é preto, o filho à esquerda de W é vermelho e o filho à direita de W é preto 


O caso 3 (linhas 13-16 e Figura 13.7(c)) ocorre quando w é preto, seu filho à esquerda é vermelho e seu filho à direita 
é preto. Podemos permutar as cores de w e de seu filho à esquerda w.esquerda e então executar uma rotação para a 
direita em w sem violar qualquer das propriedades vermelho-preto. O novo irmão w de x é agora um nó preto com um 
filho à direita vermelho e, assim, transformamos o caso 3 no caso 4. 


Caso 4: o irmão w de x é preto e o filho à direita de w é vermelho 


O caso 4 (linhas 17-21 e Figura 13.7(d)) ocorre quando o irmão w do nó x é preto e o filho à direita de w é vermelho. 
Fazendo algumas mudanças de cores e executando uma rotação para a esquerda em x.p, podemos remover o preto 
extra em x, tornando-o unicamente preto, sem violar qualquer das propriedades vermelho-preto. Definir x como a raiz 
faz o laço while terminar ao testar a condição de laço. 


Análise 


Qual é o tempo de execução de RB-DeLere? Visto que a altura de uma árvore vermelho-preto de n nós é O(lg n), 
o custo total do procedimento sem a chamada a RB-Dezere-Fixur demora o tempo O(lg n). Dentro de RB-DeLere-Fixur, 
cada um dos casos 1, 3 e 4 leva ao término depois de executar um número constante de mudanças de cores e no 
máximo três rotações. O caso 2 é o único no qual o laço while pode ser repetido, e então o ponteiro x se move para 
cima na árvore no máximo O(lg n) vezes sem executar nenhuma rotação. Assim, o procedimento RB-Decere-Fixur 
demora o tempo O(lg n) e executa no máximo três rotações e, portanto, o tempo global para RB-Dezere também é O(lg 


n). 


Exercícios 
13.4-1 Mostre que, após a execução de RB-Dezere-Fixur, a raiz da árvore tem de ser preta. 


13.4-2 Mostre que, se x e x.p são vermelhos em RB-Dererz, então a propriedade 4 é restabelecida pela chamada a 
RB-Decere-Foxur(T, x). 


13.4-3 No Exercício 13.3-2, você determinou a árvore vermelho-preto que resulta da inserção sucessiva das chaves 
41, 38, 31, 12, 19, 8 em uma árvore inicialmente vazia. Agora, mostre as árvores vermelho-preto que 
resultam da eliminação sucessiva das chaves na ordem 8, 12, 19,31,38,41. 


13.4-4 Emquais linhas do código de RB-Derere-Fixur poderíamos examinar ou modificar a sentinela Tnil? 


13.4-5 Em cada um dos casos da Figura 13.7, dê a contagem de nós pretos da raiz da subárvore mostrada até cada 
uma das subárvores a, É, ..., , e confirme que cada contagem permanece a mesma depois da transformação. 
Quando um nó tiver um atributo cor c ou c”, use a notação contagem(c) ou contagem(c” simbolicamente em 
sua contagem. 


13.4-6 Os professores Skelton e Baron estão preocupados porque, no início do caso 1 de RB-Decere-Fixur, O NÓ X.p 
poderia não ser preto. Se os professores estão corretos, as linhas 5—6 estão erradas. Mostre que x.p deve ser 
preto no início do caso 1 e, portanto, os professores não precisam se preocupar. 


13.4-7 Suponha que um nó x seja inserido em uma árvore vermelho-preto com RB-Inserre então imediatamente 
eliminado com RB-Derers. A árvore vermelho-preto resultante é igual à árvore vermelho-preto inicial? 
Justifique sua resposta. 


Problemas 
13-1 Conjuntos dinâmicos persistentes 


Durante o curso de um algoritmo, às vezes, percebemos que precisamos manter versões anteriores de um 
conjunto dinâmico à medida que ele é atualizado. Tal conjunto é denominado persistente. Um modo de 
implementar um conjunto persistente é copiar o conjunto inteiro sempre que ele é modificado, mas essa 
abordagem pode reduzir a velocidade de um programa e também consumir muito espaço. Às vezes, podemos 
nos sair muito melhor. 


Considere um conjunto persistente S com as operações Inserr, Deere E SearcH, que implementamos usando 
árvores de busca binária, como mostra a Figura 13.8(a). Mantemos uma raiz separada para cada versão do 
conjunto. Para inserir a chave 5 no conjunto, criamos um novo nó com chave 5. Esse nó se torna o filho à 
esquerda de um novo nó com chave 7, já que não podemos modificar o nó existente com chave 77. De modo 
semelhante, o novo nó com chave 7 se torna o filho à esquerda de um novo nó com chave 8, cujo filho à 
direita é o nó existente com chave 10. O novo nó com chave 8 se torna, por sua vez, o filho à direita de uma 
nova raiz r “com chave 4 cujo filho à esquerda é o nó existente com chave 3. Assim, copiamos apenas parte 
da árvore e compartilhamos alguns dos nós com a árvore original, como mostra a Figura 13.8(b). Considere 
que cada nó da árvore tenha os atributos chave, esquerda e direita, mas nenhum pai. (Consulte também o 
Exercício 13.3-6.) 


a. No caso geral de uma árvore de busca binária persistente, identifique os nós que precisamos mudar para 
inserir uma chave k ou eliminar um nó 7. 


b. Escreva um procedimento Persistent-Trer-Inserr que, dada uma árvore persistente T e uma chave k a ser 
inserida, retorne uma nova árvore persistente T” que é o resultado da inserção de k em T. 


c. Sea altura da árvore de busca binária persistente T é A, quais são os requisitos de tempo e espaço da 
sua implementação de Persistent-Trer-InserT? (O requisito de espaço é proporcional ao número de novos 
nós alocados.) 


d. Suponha que tivéssemos incluído o atributo pai em cada nó. Nesse caso, Persistent-TrEr-INsERT precisaria 
executar cópia adicional. Prove que então, Persistent--Trer-Inserr exigiria tempo e espaço (n), onde n é o 
número de nós na árvore. 


e. Mostre como usar árvores vermelho-preto para garantir que o tempo de execução do pior caso e o 
espaço são Oflg n) por inserção ou eliminação. 


| 


(a) (b) 


Figura 13.8 (a) Uma árvore de busca binária com chaves 2, 3, 4, 7, 8, 10. (b) A árvore de busca binária persistente que resulta da inserção 
da chave 5. A versão mais recente do conjunto consiste nos nós acessíveis que partem da raiz 7”, e a versão anterior consiste nos nós 
acessíveis a partir de r. Os nós sombreados em tom mais escuro são adicionados quando a chave 5 é inserida. 
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Operação de junção em árvores vermelho-preto 


A operação de junção toma dois conjuntos dinâmicos S, e S, e um elemento x tal que, para qualquer x, E S, 
ex, E $,, temos x,.chave < x.chave < x,.chave. Ela retorna um conjunto S=S, U lx) U S,. Neste 


problema, investigamos como implementar a operação de junção em árvores vermelho-preto. 


a. 


Dada uma árvore vermelho-preto T, armazenamos sua altura preta como o novo atributo T.bh. Mostre 
que RB-Inserre RB-DeLere podem manter o atributo bh sem exigir armazenamento extra nos nós da 
árvore e sem aumentar os tempos de execução assintóticos. Mostre que, enquanto descemos em 7, 
podemos determinar a altura preta de cada nó que visitamos no tempo O(1) por nó visitado. 


Desejamos implementar a operação RB-Jon(T,, x, T,), o que destrói T, e T, e retorna uma árvore vermelho- 
preto T=T,U fx; U T.. Seja n o número de nós em T, e T,. 


b. Suponha que 7:.bh > T>.bh. Descreva um algoritmo de tempo O(lg n) que encontre um nó preto y em 71 
com a maior chave entre os nós cuja altura preta é T>.bh. 

c. Seja T; a subárvore com raiz em y. Descreva como 7; U fx! U T> pode substitur T, no tempo O(1) 
sem destruir a propriedade de árvore de busca binária. 

d. Que cor x deve ter para que as propriedades vermelho-preto 1, 3 e 5 sejam mantidas? Descreva como 
impor as propriedades 2 e 4 no tempo O(lg n). 

e. Demonstre que nenhuma generalidade é perdida por adotarmos a premissa na parte (b). Descreva a 
situação simétrica que surge quando T..bh < T>.bh. 

fi Mostre que o tempo de execução de RB-Jon é O(lg nn). 

Árvores AVL 


Uma árvore AVL é uma árvore de busca binária de altura balanceada: para cada nó x, a diferença entre as 
alturas das subárvores à esquerda e à direita de x é no máximo 1. Para implementar uma árvore AVL, 
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mantemos um atributo extra em cada nó: x.h é a altura do nó x. Como em qualquer outra árvore de busca 
binária T, supomos que T.raiz aponta para o nó raiz. 


a. Prove que uma árvore AVL com n nós tem altura O(lg n). (Sugestão: Prove que uma árvore AVL de 
altura A tem no mínimo F; nós, onde Fj é o h-ésimo número de Fibonacci.) 


b. No caso da inserção em uma árvore AVL, primeiro colocamos um nó no lugar adequado em ordem de 
árvore de busca binária. Depois disso, a árvore poderia deixar de ser de altura balanceada. 
Especificamente, a diferença entre as alturas dos filhos à esquerda e à direita de algum nó poderia ser 2. 
Descreva um procedimento BaLance(x), que toma uma subárvore com raiz em x na qual os filhos à 
esquerda e à direita são de altura balanceada e a diferença entre suas alturas é no máximo 2, isto é, 
lh[x.direita] — h[x.esquerda]| < 2, e altera a subárvore comraiz em x de modo que ela se torne de altura 
balanceada. (Sugestão: Use rotações.) 


c. Usando a parte (b), descreva um procedimento recursivo AVL-Inserr(x, Z), que toma um nó x dentro de 
uma árvore AVL e um nó z recentemente criado (cuja chave já foi preenchida) e adiciona z à subárvore 
com raiz em x, mantendo a propriedade de x ser a raiz de uma árvore AVL. Como no procedimento 
Trer-Inserr da Seção 12.3, considere que z.chave já foi preenchida e que z.esquerda = nn. e z.direita = 
niL; considere também que z.h = O. Assim, para inserir o nó z na árvore AVL T, chamamos AVL- 
Inserr(T. raiz, 2). 


d. Mostre que executar AVL-Inserr em uma árvore AVL de n nós leva o tempo O(lg n) e efetua O(1) 
rotações. 


Treaps 


Se inserirmos um conjunto de n itens em uma árvore de busca binária, a árvore resultante pode ficar 
terrivelmente desbalanceada, o que resulta em tempos de busca longos. Porém, como vimos na Seção 12.4, 
árvores de busca binária construídas aleatoriamente tendem a ser balanceadas. Portanto, uma estratégia que, 
em média, constrói uma árvore balanceada para um conjunto fixo de itens seria permutar aleatoriamente os 
itens e então inseri-los na árvore nessa ordem. 


E se não tivermos todos os itens ao mesmo tempo? Se recebermos os itens um de cada vez, ainda poderemos 
construir uma árvore de busca binária aleatoriamente com eles? Examinaremos uma estrutura de dados que dá 
uma resposta afirmativa a essa pergunta. Um treap é uma árvore de busca binária cujo modo de ordenar os 
nós é modificado. A Figura 13.9 mostra um exemplo. Como sempre, cada nó x na árvore tem um valor de 
chave x.chave. Além disso, atrbuímos x.prioridade, que é um número aleatório escolhido 
independentemente para cada nó. Supomos que todas as prioridades são distintas e também que todas as 
chaves são distintas. Os nós do treap são ordenados de modo que as chaves obedeçam à propriedade de 
árvore de busca binária e que as prioridades obedeçam à propriedade de ordem de heap de mínimo: 


* Se é um filho à esquerda de u, então v.chave <u.chave. 
* Se é umfiho à direita de u, então v.chave > u.chave. 
* Se é um filho de uy, então v.prioridade > u.prioridade. 


(Essa combinação de propriedades é o motivo por que a árvore é denominada “treap”, ela tem características 
de uma árvore — tree, em inglês — de busca binária e de um heap.) É conveniente pensar em treaps como 
descrevemos a seguir. Suponha que inserimos nós x ,, x», ..., X,, com chaves associadas, em um treap. Então, 
o treap resultante é a árvore que teria sido formada se os nós fossem inseridos em uma árvore de busca 


binária normal na ordem dada por suas prioridades (escolhidas aleatoriamente), isto é, x,. prioridade < 
x, prioridade significa que x; foi inserido antes de x,. 


a. Mostre que, dado um conjunto de nós x1, x2, ..., X», com chaves e prioridades associadas (todas 
distintas), existe um único treap associado a esses nós. 


b. Mostre que a altura esperada de um treap é O(lg n) e, consequentemente, o tempo para procurar um 
valor no treap é O(lg n). 


Vamos ver como inserir um novo nó em um treap existente. A primeira coisa a fazer é atribuir uma prioridade 
aleatória ao novo nó. Então, chamamos o algoritmo de inserção, que denominamos Trear-Inserr, cuja 
operação está ilustrada na Figura 13.10. 


c. Explique como Trear-Inserr funciona. Explique a ideia em linguagem comum e dê o pseudocódigo. 
(Sugestão: Execute o procedimento habitual de inserção em árvore de busca binária e depois execute 
rotações para restaurar a propriedade de ordem de heap de mínimo.) 


Figura 13.9 Umtreap. Cada nó x é identificado comx.chave: x.prioridade. Por exemplo, a raiztem chave Ge prioridade 4. 
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Figura 13.10 A operação de tRear-inseRr. (a) O treap original, antes da inserção. (b) O treap depois da inserção de umnó comchave Ce 
prioridade 25. (c)-(d) Fases intermediárias quando é inserido um nó com chave D e prioridade 9. (e) O treap depois de terminada a 
inserção das partes (c) e (d). (f) O treap depois da inserção de umnó com chave Fe prioridade 2. 


d. Mostre que o tempo de execução esperado de Trear-Inserr é O(lg nn). 


Treap-Inserr executa uma busca e depois uma sequência de rotações. Embora tenham o mesmo tempo de 
execução esperado, essas duas operações têm custos diferentes na prática. Uma busca lê informações do 
treap sem modificá-la. Ao contrário, uma rotação muda ponteiros pai e filho dentro do treap. Na maioria dos 
computadores, operações de leitura são muito mais rápidas que operações de escrita. Assim, seria bom que 
TRrEAP-INSERT EXEcutasse poucas rotações. Mostraremos que o número esperado de rotações executadas é 
limitado por uma constante. 


Para tal, precisaremos de algumas definições, que estão ilustradas na Figura 13.11. A espinha esquerda de 
uma árvore de busca binária T é o caminho simples da raiz até o nó que tenha a menor chave. Em outras 
palavras, a espinha esquerda é o caminho simples que parte da raiz e consiste apenas em arestas à esquerda. 
Simetricamente, a espinha direita de T é o caminho simples que parte da raiz e consiste somente em arestas 
à direita. O comprimento de uma espinha é o número de nós que ela contém. 


ECC] 


(b) 


Figura 13.11 Espinhas de uma árvore de busca binária. A espinha esquerda está sombreada em (a) e a espinha direita está sombreada 


em (b). 


e. Considere que o treap T imediatamente após Trear-Inserr inseriu o nó x. Seja C o comprimento da 
espinha direita da subárvore esquerda de x. Seja D o comprimento da espinha esquerda da subárvore 
direita de x. Prove que o número total de rotações que foram executadas durante a inserção de x é igual 
aC+D. 


Agora calcularemos os valores esperados de C e D. Sem prejuízo da generalidade, consideramos que as 
chaves são 1, 2, ..., n, já que estamos comparando essas chaves apenas entre si. 


Para os nós x e y no treap T, onde y £ x, seja k = x.chave e i = y.chave. Definimos variáveis aleatórias 
indicadoras 


X, = 1 (y está na espinha direita da subárvore esquerda de x) . 


1 


f' Mostre que Xy= 1 se e somente se y. prioridade > x.prioridade, y.chave < x.chave e, para todo z tal 
que y.chave <z.chave <x.chave, temos y.prioridade < z.prioridade. 


g. Mostre que 
di 
Pr(X,=1) = fede DE 
(k—i+ 1)! 


1 


(k=i+ ki) 


h. Mostre que 


EC) = 51 


ii Use um argumento de simetria para mostrar que 


E 
n=k+1 


j.  Conclua que o número esperado de rotações executadas quando um nó é inserido em um treap é menor 
que 2. 


E[D]=1 


NorTas DO CAPÍTULO 


A ideia de balancear uma árvore de busca se deve a Adelson-Velinski e Landis [2], que apresentaram em 1962 
uma classe de árvores de busca balanceadas denominada “árvores AVL”, descrita no Problema 13-3. Uma outra classe 
de árvores de busca, denominada “árvores 2-3”, foi apresentada por J. E. Hopcroft (mas não publicada) em 1970. 
Uma árvore 2-3 mantém o equilbrio manipulando os graus de nós na árvore. O Capítulo 18 apresenta uma 
generalização de árvores 2-3 apresentada por Bayer e McCreight [32], denominadas “árvores B”. 

Árvores vermelho-preto foram criadas por Bayer [34] sob o nome “árvores B binárias simétricas”. Guibas e 
Sedgewick [155] estudaram extensamente suas propriedades e introduziram a convenção de cores vermelho/preto. 
Andersson [15] dá uma variante de árvores vermelho-preto mais simples de codificar. Weiss [351] chama essa variante 
de árvores AA. Uma árvore AA é semelhante a uma árvore vermelho-preto, exceto que os filhos à esquerda nunca 
podem ser vermelhos. 

Treaps, o assunto do Problema 13-4, foram propostas por Seidel e Aragon [309]. São a implementação-padrão 
de um dicionário em LEDA (Library of Ffficient Data types and Algorithms) [253], que é uma coleção bem 
implementada de estruturas de dados e algoritmos. 

Há muitas outras variantes em árvores binárias balanceadas, incluindo árvores de peso balanceado [264], árvores 
de k vizinhos [245] e as árvores de bode expiatório [127]. Talvez as mais curiosas sejam as “árvores oblíquas” (“splay 
trees”) introduzidas por Sleator e Tarjan [320], que são “autoajustáveis”. (Uma boa descrição de árvores oblíquas é 
dada por Tarjan [330].) Árvores oblíquas mantêm equilíbrio sem qualquer condição explícita de equilíbrio, como cor. 
Em vez disso, “operações oblíiquas” (que envolvem rotações) são executadas dentro da árvore toda vez que um acesso 
é executado. O custo amortizado (veja o Capítulo 177) de cada operação em uma árvore de n nós é O(lg n). 

As listas de saltos [286] dão uma alternativa às árvores binárias balanceadas. Uma lista de saltos é uma lista ligada 
que é ampliada com uma quantidade de ponteiros adicionais. Cada operação de dicionário é executada no tempo 
esperado O(lg n) em uma lista de saltos de n itens. 


10 caso 2 volta a cair no caso 3 e, portanto, esses dois casos não são mutuamente exclusivos. 
2 Como em RB-Insert-Fixup, os casos em RB-Delete-Fixup não são mutuamente exclusivos. 


] 4 AUMENTANDO ESTRUTURAS DE DADOS 


Algumas situações de engenharia não exigem mais que uma estrutura de dados “de livro didático” — como uma 
lista duplamente ligada, uma tabela hash ou uma árvore de busca binária —, mas muitas outras exigem uma pitada de 
criatividade. Entretanto, apenas em raras situações você precisará criar um tipo inteiramente novo de estrutura de 
dados. No mais das vezes, será suficiente aumentar uma estrutura de dados comum e nela armazenar informações 
adicionais. Então, você poderá programar novas operações para que a estrutura de dados suporte a aplicação 
desejada. Porém, aumentar uma estrutura de dados nem sempre é uma operação direta, já que as informações 
adicionadas devem ser atualizadas e mantidas pelas operações originais da estrutura. 

Este capítulo discute duas estruturas de dados que construímos aumentando as árvores vermelho-preto. A Seção 
14.1 descreve uma estrutura de dados que suporta operações gerais de estatísticas de ordem em um conjunto dinâmico. 
Então, poderemos encontrar rapidamente o i-ésimo menor número em um conjunto ou o posto de um dado elemento na 
ordenação total do conjunto. A Seção 14.2 abstrai o processo de aumentar uma estrutura de dados e fornece um 
teorema que pode simplificar o processo de aumento de árvores vermelho-preto. A Seção 14.3 utiliza esse teorema 
para ajudar a projetar uma estrutura de dados para manter um conjunto dinâmico de intervalos, como intervalos de 
tempo. Dado um intervalo de consultas, poderemos encontrar rapidamente um intervalo no conjunto que se sobreponha 
a ele. 


14.1 Estatísticas DE ORDEM DINÂMICAS 


O Capítulo 9 apresentou a noção de estatística de ordem. Especificamente, a i-ésima estatística de ordem de um 
conjunto de n elementos, onde i E (1,2,..., n), é simplesmente o elemento no conjunto que tenha a i-ésima menor 
chave. Vimos como determinar qualquer estética de ordem no tempo O(n) em um conjunto não ordenado. Nesta seção, 
veremos como modificar as árvores vermelho-preto para podermos determinar qualquer estatísttica de ordem no tempo 
O(lg n). Veremos também como calcular o posto de um elemento — sua posição na ordem linear do conjunto — no 
tempo Olg n). 

A Figura 14.1 mostra uma estrutura de dados que pode suportar operações rápidas de estatísticas de ordem. Uma 
árvore de estatísticas de ordem T é simplesmente uma árvore vermelho-preto com informações adicionais 
armazenadas em cada nó. Além dos atributos habituais da árvore vermelho-preto, x.chave, x.cor, x.p, x.esquerda e 
x.direita em um nó x, temos outro atributo, x.tamanho. Esse atributo contém o número de nós (internos) na subárvore 
com raiz em x (incluindo o próprio x), isto é, o tamanho da subárvore. Se definirmos o tamanho da sentinela como 0, 
isto é, se definirmos tamanho[nilT | como 0, então teremos a identidade 


x.tamanho = x.esquerda.tamanho + x.direita.tamanho + 1. 
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Figura 14.1 Uma árvore de estatísticas de ordem, que é uma árvore vermelho-preto aumentada. Os nós em cinzento são vermelhos, e os 
nós emnegro são pretos. Além de seus atributos habituais, cada nó x temumatributo x.tamanho, que é o número de nós na subárvore 
comraiz emx. 


Não exigimos que as chaves sejam distintas em uma árvore de estatísticas de ordem. (Por exemplo, a árvore da 
Figura 14.1 tem duas chaves com valor 14 e duas chaves com valor 21.) Na presença de chaves iguais, a noção de 
posto que citamos não é bem definida. Eliminamos essa ambiguidade para uma árvore de estatísticas de ordem 
definindo o posto de um elemento como a posição na qual ele seria impresso em um percurso em in-ordem da árvore. 
Por exemplo, na Figura 14.1, a chave 14 armazenada em um nó preto tem ordem 5, e a chave 14 armazenada em um 
nó vermelho tem ordem 6. 


Recuperação de um elemento com determinado posto 


Antes de mostrar como manter as informações de tamanho durante inserção e eliminação, vamos examinar a 
implementação de duas consultas de estatísticas de ordem que utilizam essas informações adicionais. Começamos com 
uma operação que recupera um elemento com um determinado posto. O procedimento OS-serrcr(x, 1) retorna um 
ponteiro para o nó que contém a i-ésima menor chave na subárvore com raiz em x. Para encontrar o nó com a i-ésima 
menor chave em uma árvore de estatísticas de ordem 7, chamamos OS-Ssrecr(raiz[T], 1). 


OS-SeLECT(X, 1) 


r = x.esquerda.tamanho + 1 
ifi=r 

return x 
elseifi <r 

retum OS-SerecT(x.esquerda, i) 


SN CTHRONm 


else return OS-SeLEcT(x.direita, i — 1) 


Na linha 1 de OS-SELECT, calculamos 7, o posto do nó x dentro da subárvore com raiz em x. O valor de 
x.esquerda.tamanho é o número de nós que vêm antes de x em um percurso de árvore, em um percurso em in-ordem 
da subárvore com raiz em x. Assim, x.esquerda.tamanho + 1 é o posto de x dentro da subárvore com raiz emx. Se i 
= r, então o nó x é o i-ésimo menor elemento, e assim retornamos x na linha 3. Se i < r, então o i-ésimo menor 
elemento encontra-se na subárvore esquerda de x e, portanto, fazemos recursão em x.esquerda na linha 5. Se i > r, 
então o i-ésimo menor elemento encontra-se na subárvore drreita de x. Visto que a subárvore com raiz em x contém 7 
elementos que vêm antes da subárvore direita de x em um percurso de árvore em ordem, o i-ésimo menor elemento na 
subárvore com raiz em x é o (i — r)-ésimo menor elemento na subárvore com raiz em x.direita. A linha 6 determina 
esse elemento recursivamente. 

Para ver como OS-serecr funciona, considere uma busca pelo 170º menor elemento na árvore de estatísticas de 
ordem da Figura 14.1. Começamos com x como a raiz, cuja chave é 26, e com i = 17. Como o tamanho da subárvore 
esquerda de 26 é 12, seu posto é 13. Assim, sabemos que o nó com posto 17 é o 17 — 13 = 40 menor elemento na 
subárvore direita de 26. Após a chamada recursiva, x é o nó com chave 41 e i = 4. Visto que o tamanho da subárvore 
esquerda de 41 é 5, seu posto dentro da sua subárvore é 6. Portanto, sabemos que o nó com posto 4 está no 4º menor 


elemento da subárvore esquerda de 41. Após a chamada recursiva, x é o nó com chave 30 e seu posto dentro de sua 
subárvore é 2. Assim, faremos mais uma vez uma recursão para encontrar o 4 — 2 = 20º menor elemento na subárvore 
com raiz no nó com chave 38. Agora, descobrimos que sua subárvore esquerda tem tamanho 1, o que significa que ele 
é o segundo menor elemento. Assim, o procedimento retorna um ponteiro para o nó com chave 38. 

Como cada chamada recursiva desce um nível na árvore de estatísticas de ordem, o tempo total para OS-Serecré, 
na pior das hipóteses, proporcional à altura da árvore. Visto que se trata de uma árvore vermelho-preto, sua altura é 
O(lg n), onde n é o número de nós. Assim, o tempo de execução de OS-Sececr é O(lg n) para um conjunto dinâmico de 
n elementos. 


Determinação do posto de um elemento 


Dado um ponteiro para um nó x em uma árvore de estatísticas de ordem T, o procedimento OS-Rank retorna a 
posição de x na ordem linear determinada por um percurso em m-ordem da árvore T. 


OS-RANK(T, x) 


r = x.esquerda.tamanho + 1 


| Ao 
while y = T.raiz 


1 

Ê 

É 

4 ify = y.p.direita 
5 r=r+y.p.esquerda.tamanho + 1 
6 yY=y.p 

7 retumr 


O procedimento funciona da maneira descrita a seguir. Podemos considerar o posto de x como o número de nós 
que precedem x em um percurso de árvore em in-ordem, mais 1 para o próprio x. OS-Ranx mantém o seguinte 
invariante de laço: 


No início de cada iteração do laço while das linhas 3 a 6, r é o posto de x.chave na subárvore com raiz no nó y. 


Usamos esse invariante de laço para mostrar que OS-Ranx funciona corretamente como a segurr: 


Inicialização: Antes da primeira iteração, a linha 1 atribui a r o posto de x.chave dentro da subárvore com raiz 
emx. Fazer y = x na linha 2 torna o invariante verdadeiro na primeira vez que o teste na linha 3 é executado. 


Manutenção: No fim de cada iteração do laço while, atribuímos y = .p. Assim, devemos mostrar que, se r é o 
posto de x.chave na subárvore com raiz em y no início do corpo do laço, então r é o posto de x.chave na 
subárvore com raiz em y.p no fim do corpo do laço. Em cada iteração do laço while, consideramos a subárvore 
com raiz em y.p. Já contamos o número de nós na subárvore com raiz no nó y que precedem x em um percurso 
em in-ordem; assim, devemos adicionar os nós na subárvore com raiz no irmão de y que precedem x em um 
percurso em in-ordem, mais 1 para y.p, se ele também precede x. Se y é um filho da esquerda, nem y.p nem 
qualquer nó na subárvore direita de y.p precede x; portanto, deixamos r como está. Caso contrário, y é um filho 
à direita e todos os nós na subárvore esquerda de y.p precedem x, assim como o próprioy.p. Portanto, na linha 
5, adicionamos y. p.esquerda.tamanho + 1 ao valor atual de 7: 


Término: O laço termina quando y = Traiz, de modo que a subárvore com raiz em y é a árvore mteira. Assim, o 
valor de r é o posto de x.chave na árvore toda. 


Como exemplo, quando executamos OS-Rank na árvore de estatísticas de ordem da Figura 14.1 para encontrar o 
posto do nó com chave 38, obtemos a seguinte sequência de valores de y.chave e 7 no início do laço while: 


iteração y.chave r 
l 38 2 
2 30 4 
3 41 4 
4 26 17 


O procedimento retorna o posto 17. 

Visto que cada iteração do laço while leva o tempo O(1) e y sobe um nível na árvore com cada iteração, o tempo 
de execução de OS-Rank é, na pior das hipóteses, proporcional à altura da árvore: O(lg n) em uma árvore de 
estatísticas de ordem de n nós. 


Manutenção de tamanhos de subárvores 


Dado o atributo tamanho em cada nó, OS-SeLecre OS-Rank podem calcular rapidamente informações de 
estatísticas de ordem. Porém, a menos que possamos manter eficientemente esses atributos dentro das operações 
modificadoras básicas em árvores vermelho-preto, nosso trabalho terá sido em vão. Agora, mostraremos como manter 
tamanhos de subárvores para inserção e eliminação sem afetar os tempos de execução assintóticos de qualquer das 
operações. 

Observamos, na Seção 13.3, que a inserção em uma árvore vermelho-preto consiste em duas fases. A primeira 
fase percorre a árvore de cima para baixo a partir da raiz, inserindo o novo nó como um filho de um nó existente. A 
segunda fase sobe a árvore, alterando cores e executando rotações para manter as propriedades vermelho-preto. 

Para manter os tamanhos das subárvores na primeira fase, simplesmente incrementamos x.tamanho para cada nó 
x no caminho descendente simples percorrido da raiz até às folhas. O novo nó adicionado obtém um tamanho igual a 
1. Visto que existem O(lg nn) nós no caminho percorrido, o custo adicional de manter os atributos tamanho é O(lg n). 

Na segunda fase, as únicas mudanças estruturais na árvore vermelho-preto subjacente são causadas por rotações, 
das quais existem no máximo duas. Além disso, uma rotação é uma operação local: somente dois nós têm seus atributos 
tamanho invalidados. A ligação em torno da qual a rotação é executada incide nesses dois nós. Referindo-nos ao 
código de Lerr-Rorsre (T, x) na Seção 13.2, adicionamos as seguintes linhas: 


12y.tamanho = x.tamanho 
13x.tamanho = x.esquerda.tamanho + x .direita.tamanho + 1 


A Figura 14.2 ilustra como os atributos são atualizados. A mudança em Ricur-Rorare é simétrica. 


LEFT-ROTATE(T, x) 
«até CesCUnneaaacaanneaanananaca nana 


cencenonencenencncanenaeeeenasaenhãs 
RiGHT-ROTATE(T, y) 


Figura 14.2 Atualização de tamanhos de subárvores durante rotações. A ligação em torno da qual a rotação é executada é incidente nos 
dois nós cujos atributos tamanho precisam ser atualizados. As atualizações são locais, exigindo apenas as informações tamanho 
armazenadas emx, y e nas raízes das subárvores mostradas como triângulos. 


Visto que são executadas no máximo duas rotações durante a inserção em uma árvore vermelho-preto, gastamos 
somente o tempo adicional O(1) na atualização de atributos tamanho na segunda fase. Portanto, o tempo total para 
inserção em uma árvore de estatísticas de ordem de n nós é O(lg n) — assintoticamente igual ao de uma árvore 
vermelho-preto comum. 

A eliminação em uma árvore vermelho-preto também consiste em duas fases: a primeira age na árvore de busca 
subjacente, e a segunda provoca no máximo três rotações; fora isso, não executa nenhuma mudança estrutural (consulte 
a Seção 13.4). A primeira fase extrai um nó y da árvore ou move esse nó para cima dentro da árvore. Para atualizar os 
tamanhos das subárvores, simplesmente percorremos um caminho simples do nó y (começando em sua posição original 
dentro da árvore) até a raiz, decrementando o atributo tamanho de cada nó no caminho. Visto que esse caminho tem o 
comprimento O(lg n) em uma árvore vermelho-preto de n nós, o tempo adicional despendido na manutenção de 
atributos tamanho na primeira fase é O(lg n). Tratamos as O(1) rotações na segunda fase de eliminação da mesma 
maneira que a inserção. Assim, tanto a inserção quanto a eliminação, incluindo a manutenção dos atributos tamanho, 
demoram o tempo O(lg nn) para uma árvore de estatísticas de ordem de n nós. 


Exercícios 
14.1-1 Mostre como OS-SELECT(T .raiz, 10) funciona na árvore vermelho-preto T' da Figura 14.1. 


14.1-2 Mostre como OS-Rane(T, x) funciona na árvore vermelho-preto 7 da Figura 14.1 e no nó x com x.chave = 
35. 


14.1-3 Escreva uma versão não recursiva de OS-SeLecr. 


14.1-4 Escreva um procedimento recursivo OS-Key-Rank(T, k) que tome como entrada uma árvore de estatísticas de 
ordem T e uma chave k e retorne o posto de k no conjunto dinâmico representado por 7. Suponha que as 
chaves de T sejam distintas. 


14.1-5 Dado um elemento x em uma árvore de estatísticas de ordem de n nós e um número natural i, de que modo 
podemos determinar o i-ésimo sucessor de x na ordem linear da árvore no tempo O(lg nn)? 


14.1-6 Observe que, sempre que referenciamos o atributo tamanho de um nó em OS-serecr ou OS-Rank, O usamos 
somente para calcular um posto. De acordo com isso, suponha que armazenemos em cada nó seu posto na 
subárvore da qual ele é a raiz. Mostre como manter essas informações durante inserção e eliminação. 
(Lembre-se de que essas duas operações podem provocar rotações.) 


14.1-7 Mostre como usar uma árvore de estatísticas de ordem para contar o número de inversões (ver o Problema 2- 
4) em um arranjo de tamanho n no tempo O(n lg nn). 


14.1-8 * Considere n cordas em um círculo, cada uma definida por suas extremidades. Descreva um algoritmo de 
tempo O(n lg n) para determinar o número de pares de cordas que se interceptam no interior do círculo. (Por 
exemplo, se as n cordas são todas diâmetros que se encontram no centro, então a resposta correta é Ea 


(2) 
Suponha que nenhum par de cordas compartilhe um ponto extremo. 


14.2 Como AUMENTAR UMA ESTRUTURA DE DADOS 


O processo de aumentar uma estrutura de dados básica para suportar funcionalidade adicional ocorre com 
bastante frequência no projeto de algoritmos. Nós o usaremos novamente na próxima seção para projetar uma estrutura 


de dados que suporta operações em intervalos. Nesta seção, examinaremos as etapas envolvidas em tal aumento. 
Também provaremos um teorema que nos permite aumentar árvores vermelho-preto facilmente em muitos casos. 
Podemos dividir o processo de aumento de uma estrutura de dados em quatro etapas: 


1. Escolher uma estrutura de dados subjacente. 

2. Determinar informações adicionais que devem ser mantidas na estrutura de dados subjacente. 

3. Verificar se podemos manter as informações adicionais para as operações modificadoras básicas na estrutura de 
dados subjacente. 

4. Desenvolver novas operações. 


Como ocorre com qualquer método de projeto prescritivo, você não deve seguir cegamente as etapas na ordem 
dada. Praticamente todo trabalho de projeto contém um elemento de tentativa e erro e, de modo geral, todas as etapas 
são executadas em paralelo. Por exemplo, não tem sentido algum determinar informações adicionais e desenvolver 
novas operações (etapas 2 e 4) se não conseguirmos manter as informações adicionais eficientemente. Apesar disso, 
esse método de quatro etapas dá um bom foco para seus esforços de aumentar uma estrutura de dados e é também um 
bom modo de organizar a documentação de uma estrutura de dados aumentada. 

Seguimos essas etapas na Seção 14.1 para projetar nossas árvores de estatísticas de ordem. Na etapa 1, 
escolhemos as árvores vermelho-preto como a estrutura de dados subjacente. Uma pista para determinar a adequação 
de árvores vermelho-preto vem de seu suporte eficiente para outras operações de conjuntos dinâmicos em uma ordem 
total, como Minimum, Maximum, SUCCESSOR € PREDECESSOR. 

Na etapa 2, acrescentamos o atributo tamanho, no qual cada nó x armazena o tamanho da subárvore com raiz em 
x. Em geral, as imformações adicionais melhoram a eficiência das operações. Por exemplo, poderíamos ter 
implementado OS-Serecre OS-Ranx usando apenas as chaves armazenadas na árvore, mas eles não teriam sido 
executados em tempo O(lg n). Algumas vezes, as informações adicionais são informações de ponteiros e não de dados, 
como no Exercício 14.2-1. Na etapa 3, asseguramos que a inserção e a elimmação poderiam manter os atributos 
tamanho e ainda assim serem executadas no tempo O(lg n). No caso ideal, precisaríamos atualizar somente alguns 
elementos da estrutura de dados para manter as informações adicionais. Por exemplo, se simplesmente armazenássemos 
em cada nó o posto que ele ocupa na árvore, os procedimentos OS-Serrcr e OS-Rank seriam executados rapidamente, 
mas inserir um novo elemento mínimo causaria uma mudança nessas informações em todos os nós da árvore. Porém, 
quando armazenamos tamanhos de subárvores, mserir um novo elemento provoca mudanças nas informações de apenas 
O(lg n) nós. 

Na etapa 4, desenvolvemos as operações OS-SrLecr e OS-Ranx. Afinal, a necessidade de novas operações é o 
motivo pelo qual nos preocupamos em aumentar uma estrutura de dados. Ocasionalmente, em vez de desenvolver 
novas operações, usamos as informações adicionais para acelerar operações existentes, como no Exercício 14.2-1. 


Como aumentar árvores vermelho-preto 


Quando árvores vermelho-preto formam a base de uma estrutura de dados aumentada, podemos provar que 
inserção e eliminação sempre podem manter eficientemente certos tipos de informações adicionais, o que torna a etapa 
3 muito fácil A prova do teorema a seguir é semelhante ao argumento da Seção 14.1 de que podemos manter o 
atributo tamanho em árvores de estatísticas de ordem. 


Teorema 14.1 (Como aumentar uma árvore vermelho-preto) 


Seja f um atributo que aumenta uma árvore vermelho-preto 7 de n nós, e suponha que o valor de f para cada nó x 
dependa somente das informações nos nós x, x.esquerda e x.direita, incluindo possivelmente x.esquerda.f e 
x.direita.f. Então, podemos manter os valores de f em todos os nós de T durante inserção e eliminação, sem afetar 
assintoticamente o desempenho O(lg n) dessas operações. 


Prova A principal ideia da prova é que uma mudança em um atributo f em um nó x se propaga apenas até os ancestrais 
de x na árvore. Isto é, mudar x.f pode exigir que x.p.f seja atualizado, mas nada além disso; atualizar x.p.f pode exigir 
que x.p.p.f seja atualizado, mas nada além disso, e assim por diante subindo a árvore. Uma vez atualizado Traiz.f, 
nenhum outro nó dependerá do novo valor e, assim, o processo termina. Visto que a altura de uma árvore vermelho- 
preto é O(lg n), mudar um atributo f em um nó custa o tempo O(lg n) na atualização de todos os nós que dependem da 
mudança. 

A inserção de um nó x em 7 consiste em duas fases (consulte a Seção 13.3). A primeira fase insere x como um 
filho de um nó existente x.p. Podemos calcular o valor de x.fno tempo O(1) já que, por hipótese, ele depende apenas 
das informações nos outros atributos do próprio x e das informações nos filhos de x, mas os filhos de x são a sentinela 
T.nil. Uma vez calculado x.f, a mudança se propaga para cima na árvore. Assim, o tempo total para a primeira fase de 
inserção é O(lg n). Durante a segunda fase, as únicas mudanças estruturais na árvore vêm de rotações. Visto que apenas 
dois nós mudam em uma rotação, o tempo total para atualizar os atributos fé O(lg n) por rotação. Como o número de 
rotações durante a inserção é no máximo dois, o tempo total para inserção é O(lg n). 

Como a inserção, a eliminação tem duas fases (consulte a Seção 13.4). Na primeira fase, as mudanças na árvore 
ocorrem quando o nó eliminado é removido da árvore. Se o nó eliminado tiver dois filhos naquele momento, seu 
sucessor passará para a posição do nó eliminado. A propagação até f das atualizações causadas por essas mudanças 
custa, no máximo, O(lg n), já que as mudanças na árvore são locais. Corrigir a árvore vermelho-preto durante a 
segunda fase requer no máximo três rotações, e cada rotação requer no máximo o tempo O(lg n) para propagar as 
atualizações até f. Portanto, como a inserção, o tempo total para eliminação é O(lg n). 


Em nuitos casos, tal como a manutenção de atributos tamanho em árvores de estatísticas de ordem, o custo de 
atualizar após uma rotação é O(1), em vez do custo O(lg n) deduzido na prova do Teorema 14.1. O Exercício 14.2-4 
dá um exemplo. 


Exercícios 


14.2-1 Mostre, adicionando ponteiros aos nós, como suportar cada uma das consultas de conjuntos dinâmicos 
Minimum, Maximum, Successor € PrEDECESsSOR NO tempo de pior caso O(l) em uma árvore de estatísticas de 
ordem aumentada. O desempenho assintótico de outras operações em árvores de estatísticas de ordem não 
deve ser afetado. 


14.2-2 Podemos manter as alturas pretas de nós em uma árvore vermelho-preto como atributos nos nós da árvore 
sem afetar o desempenho assintótico de qualquer das operações de árvores vermelho-preto? Mostre como, 
se sua resposta for positiva, ou justifique uma resposta negativa. E se quiséssemos manter a profundidade dos 
nós? 


14.2-3 XX Seja ? um operador binário associativo e seja a um atributo mantido em cada nó de uma árvore vermelho- 
preto. Suponha que queiramos incluir em cada nó x um atributo adicional ftal que f [x] =x a? x,a O... 
X m:4, onde X,, X5,..., Xm É à listagem em ordem de nós da subárvore com raiz em x. Mostre como atualizar os 
atributos f em tempo O(1) após uma rotação. Modifique ligeiramente seu argumento para aplicá-lo aos 
atributos tamanho em árvores de estatísticas de ordem. 


14.2-4 XX Desejamos aumentar árvores vermelho-preto com uma operação RB-Enumerare(x, a, b) que produza todas 
as chaves k tais que a < k < b em uma árvore vermelho-preto com raiz em x. Descreva como implementar 
RB-Enumerare em tempo Q(m + lg n), onde m é o número de chaves na saída e n é o número de nós internos 
na árvore. (Sugestão: Não há necessidade de adicionar novos atributos à árvore vermelho-preto.) 


14.3 ARVORES DE INTERVALOS 


Nesta seção, ampliaremos as árvores vermelho-preto para suportar operações em conjuntos dinâmicos de 
intervalos. Um intervalo fechado é um par ordenado de números reais [t,, t,], com t,, < t,. O intervalo [t,, t,] 
representa o conjunto ft E :t,<t< t,). Intervalos abertos e semi-abertos excluem ambas ou uma das 
extremidades do conjunto, respectivamente. Nesta seção, suporemos que os intervalos são fechados; a extensão dos 
resultados a intervalos abertos e semi-abertos é conceitualmente direta. 

Intervalos são convenientes para representar eventos tais que cada um ocupe um período contínuo de tempo. Por 
exemplo, poderíamos querer consultar um banco de dados de intervalos de tempo para descobrir quais eventos 
ocorreram durante um determinado intervalo. A estrutura de dados nesta seção fornece um meio eficiente para manter 
esse banco de dados de intervalos. 

Podemos representar um intervalo [t,, t,] como um objeto i, com atributos i.baixo = t, (o ponto extremo baixo) 
e ialto = t, (o ponto extremo alto). Dizemos que os intervalos i e 7” se sobrepõem se iN 7º £ 2, isto é, se ibaixo < 
P.alto e T.baixo < ialto. Como mostra a Figura 14.3, quaisquer dois intervalos i e i” satisfazem a tricotomia de 
intervalos; isto é, exatamente uma das três propriedades a seguir é válida: 


a. iei'se sobrepõem. 
b. i está à esquerda de 7” (isto é, i.alto < 7 .baixo). 
c. iestá à direita de 7” (isto é, ?”.alto < i baixo). 


Uma árvore de intervalos é uma árvore vermelho-preto que mantém um conjunto dinâmico de elementos, sendo 
que cada elemento x contém um intervalo x.int. Arvores de intervalos suportam as seguintes operações: 


InteRvAL-InsERT(T, x) acrescenta o elemento x à árvore de intervalos 7. Supõe-se que o atributo int desse elemento 
contém um intervalo. 


IntervaL-DeLeTE(T, x) remove o elemento x da árvore de intervalos T. 


IntervaL-SearcH(T, 1) retorna um ponteiro para um elemento x na árvore de intervalos T tal que x.int se sobrepõe ao 
intervalo i ou um ponteiro para a sentinela T.nil, se não existir tal elemento no conjunto. 


A Figura 14.4 mostra como uma árvore de intervalos representa um conjunto de intervalos. Acompanharemos o 
método de quatro etapas da Seção 14.2 ao mesmo tempo que revisamos o projeto de uma árvore de intervalos e as 
operações nela executadas. 
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Figura 14.3 A tricotomia de intervalos para dois intervalos fechados i ei”. (a) Sei ei" se sobrepõem, há quatro situações; em cada uma, 
i.baixo <i".alto e i".baixo <i.alto. (b) Os intervalos não se sobrepõem, e i.alto <i”.baixo. (c) Os intervalos não se sobrepõem, e 7”.alto 
<i" baixo. 


Etapa 1: Estrutura de dados subjacente 


Escolhemos uma árvore vermelho-preto na qual cada nó x contém um intervalo x.int e a chave de x é o ponto 
extremo baixo, x.int.baixo, do intervalo. Assim, um percurso de árvore em in-ordem pela estrutura de dados produz 
uma lista de intervalos em sequência ordenada pelo ponto extremo menor. 


Etapa 2: Informações adicionais 


Além dos próprios intervalos, cada nó x contém um valor x.max, que é o valor máximo de qualquer ponto 
extremo de intervalo armazenado na subárvore com raiz em x. 


Etapa 3: Manutenção das informações 


Temos de verificar que inserção e eliminação em uma árvore de intervalos de n nós demoram o tempo O(lg n). 
Podemos determinar x.max dado o intervalo x.int e os valores max dos filhos do nó x: 


x.max = max(x.int.alto, x.esquerda.max, x.direita.max). 
Assim, pelo Teorema 14.1, inserção e eliminação são executadas no tempo O(lg nn). De fato, podemos atualizar os 


atributos max após uma rotação no tempo O(1), como mostram os Exercícios 14.2-3 e 14.3-1. 


ECO 


26126 
25-———30 


19-20 
17-— 19 
(a) 16 1-———==49] 
15 + 123 
8-+9 
6-———10 
5S-— +48 

0-——3 

À À ) À | ) À ) | o À À d | À ) j ) | 7 1, À ) | À j d > 
0 5 10 15 20 25 30 


[25,30)) int 


= max 


(b) 


Figura 14.4 Uma árvore de intervalos. (a) Um conjunto de 10 intervalos mostrados em sequência ordenada de baixo para cima por ponto 
extremo esquerdo. (b) A árvore de intervalos que os representa. Cada nó x contémum intervalo, mostrado acima da linha tracejada, e o 
máximo valor de qualquer ponto extremo de intervalo na subárvore comraiz emx, mostrado abaixo da linha tracejada. Um percurso em 
in-ordem da árvore produz uma lista de nós em sequência ordenada por ponto extremo esquerdo. 


Etapa 4: Desenvolvimento de novas operações 


A única operação nova de que necessitamos é IntervaL-SearcH(T, 1), que encontra um nó na árvore T cujo intervalo 
se sobrepõe ao intervalo i. Se não existir nenhum intervalo que se sobreponha a i na árvore, o procedimento retorna um 
ponteiro para a sentinela nillT]. 


INTERVAL-SEARCH(T, 1) 


| = raiz 

2 while x = Tnileinão se sobrepõe a x.int 

» if x.esquerda = T.nil e x.esquerda.max> i.baixo 
4 x = x.esquerda 

o else x = x.direita 

6 return x 


A busca de um intervalo que se sobreponha a i começa com x na raiz da árvore, prossegue no sentido descendente 
e termina quando encontra um intervalo sobreposto ou quando x aponta para a sentinela Tnil. Como cada iteração do 
laço básico demora o tempo O(1) e visto que a altura de uma árvore vermelho-preto de n nós é Ollg n), o 
procedimento IntervaL-SearcH demora o tempo O(lg n). 

Antes de vermos por que IntervaL-SearcH É correto, vamos examinar como ele funciona na árvore de intervalos da 
Figura 14.4. Vamos supor que desejamos encontrar um intervalo que se sobreponha ao intervalo i = [22, 25]. 
Começamos com o nó x como raiz, o qual contém [16, 21] e não se sobrepõe a i. Visto que x.esquerda.max = 23 é 
maior que i.baixo = 22, o laço continua com x como o filho à esquerda da raiz — o nó que contém [8, 9], que também 
não se sobrepõe a i. Dessa vez, x.esquerda.max = 10 é menor que i.baixo = 22 e, assim, o laço continua com o filho à 
direita de x como o novo x. Como o intervalo [15, 23] armazenado nesse nó se sobrepõe a i, o procedimento retorna 
esse nó. 

Como exemplo de uma busca malsucedida, suponha que desejemos encontrar um intervalo que se sobreponha a i 
= [11, 14] na árvore de intervalos da Figura 14.4. Mais uma vez, começamos com x como a raiz. Visto que o intervalo 
[16, 21] da raiz não se sobrepõe a 1, e visto que x.esquerda.max = 23 é maior que i. baixo = 11, vamos para a 
esquerda até o nó que contém [8, 9]. O intervalo [8, 9] não se sobrepõe a i e x.esquerda.max = 10 é menos que 
ibaixo = 11 e, portanto, vamos para a direita. (Observe que nenhum intervalo na subárvore à esquerda se sobrepõe a 
i.) O intervalo [15, 23] não se sobrepõe a i, e seu filho à esquerda é T.nil; assim, vamos novamente para a direita, o 
laço termina e retornamos a sentinela Tnil. 

Para ver por que IntervaL-SearcH é correto, devemos entender por que basta examinar um único caminho simples 
que parte da raiz. A ideia básica é que em qualquer nó x, se x.int não se sobrepõe a i, a busca sempre prossegue em 
uma direção segura: a busca definitivamente encontrará um intervalo sobreposto se a árvore contiver algum. O teorema 
a seguir enuncia essa propriedade de modo mais preciso. 


Teorema 14.2 
Qualquer execução de Intervar-SearcH(T, 7) devolve um nó cujo intervalo se sobrepõe a i ou devolve Tnil e a árvore T 


não contém nenhum nó cujo intervalo se sobrepõe a i. 


Prova O laço while das linhas 2 a 5 termina quando x = Tnil ou i se sobrepõe a x.int. Nesse último caso, certamente 
é correto devolver x. Portanto, vamos focalizar o primeiro caso, no qual o laço while termina porque x = T.nil. 

Usamos o seguinte invariante para o laço while das linhas 2 a 5: 

Se a árvore T contém um intervalo que se sobrepõe a i, então a subárvore com raiz em x contém tal intervalo. 


| 


ps ps ds pts 
> > 
(a) (b) 


Figura 14.5 Intervalos na prova do Teorema 14.2. O valor de x.esquerda.max é mostrado em cada caso como uma linha tracejada. (a) A 
busca vai para a direita. Nenhumintervalo i”na subárvore à esquerda de x pode se sobrepor a i. (b) A busca vai para a esquerda. A 
subárvore à esquerda de x contém um intervalo que se sobrepõe a i (situação não mostrada) ou a árvore à esquerda de x contém um 
intervalo i” tal que i".alto = x.esquerda.max. Visto que i não se sobrepõe a i”, tambémnão se sobrepõe a nenhumintervalo i “na 
subárvore à direita de x, já que i” baixo <i”.baixo. 


Usamos esse invariante de laço da seguinte maneira: 
Inicialização: Antes da primeira iteração, a linha 1 atribui a raiz de T a x, de modo que o invariante é válido. 


Manutenção: Cada iteração do laço while executa a linha 4 ou a linha 5. Mostraremos que ambos os casos 
mantêm o invariante de laço. 


Se a linha 5 é executada em razão da condição de desvio na linha 3, temos x.esquerda = Tnil ou 
x.esquerda.max < i baixo. Se x.esquerda = Tnil, a subárvore com raiz em x.esquerda claramente não 
contém nenhum intervalo que se sobreponha a i e, assim, definr x como x.direita mantém o invariante. 
Portanto, suponha que x.esquerda £ Til e x.esquerda.max < i baixo. Como mostra a Figura 14.5, para 
cada intervalo i' na subárvore à esquerda de x, temos 


Valto < x.esquerda.max 


<i.baixo 


Portanto, pela tricotomia de intervalos, 7” e i não se sobrepõem. Assim, a subárvore à esquerda de x não 
contém nenhum intervalo que se sobreponha a i, de modo que atribuir x.direita a x como mantém o 
invariante. 

Se, por outro lado, a linha 4 for executada, mostraremos que o contrapositivo do invariante de laço é válido. 
Isto é, se a subárvore com raiz em x.esquerda não contiver nenhum intervalo que se sobreponha a i, não há 
nenhum intervalo em nenhum lugar da árvore que se sobreponha a i. Visto que a linha 4 é executada, em razão 
da condição de desvio na linha 3, temos x.esquerda.max > i baixo. Além disso, pela definição do atributo 
max, a subárvore esquerda de x deve conter algum intervalo i” tal que 


Valto = x.esquerda.max 


> i.baixo 


(A Figura 14.5(b) ilustra a situação.) Visto que i e à” não se sobrepõem, e como não é verdade que ?”.alto < 
ibaixo, decorre pela tricotomia de intervalos que ialto < i”.baixo. As árvores de intervalos são chaveadas 
nas extremidades baixas de intervalos e, assim, a propriedade de árvore de busca implica que, para qualquer 
intervalo i” na subárvore direita de x, 


alto <t.baixo 


E É DAIXO . 


Pela tricotomia de intervalos, i e 7” não se sobrepõem. Concluímos que, independentemente de qualquer 
intervalo na subárvore esquerda de x se sobrepor ou não a i, atribuir x.esquerda a x mantém o invariante. 


Término: Se o laço termina quando x = Tnil, a subárvore com raiz em x não contém nenhum intervalo que se 
sobreponha a i. O contrapositivo do invariante de laço implica que 7 não contém nenhum intervalo que se 
sobreponha a i. Daí, é correto retornar x = Tnil. 


Portanto, o procedimento IntervaL-SearcH funciona corretamente. 


Exercícios 


14.3-1 


14.3-2 


14.3-3 


14.3-4 


14.3-5 


14.3-6 


14.3-7 


Escreva pseudocódigo para Lerr-Rorare que opere em nós em uma árvore de intervalos e atualize os atributos 
max no tempo O(1). 


Reescreva o código para Intervar-SesrcH de modo que ele funcione adequadamente quando todos os 
intervalos são abertos. 


Descreva um algoritmo eficiente que, dado um intervalo i, retorne um intervalo que se sobreponha a i que 
tenha o ponto extremo baixo mínimo ou T.nil se aquele intervalo não existir. 


Dada uma árvore de intervalos T e um intervalo i, descreva como produzir uma lista com todos os intervalos 
em T que se sobrepõem a i no tempo O(min(n, k lg n)), onde k é o número de intervalos na lista de saída. 
(Sugestão: Um método simples executa várias consultas, modificando a árvore entre as consultas. Um 
método ligeiramente mais complicado não modifica a árvore.) 


Sugira modificações para os procedimentos de árvores de intervalos para suportar a nova operação IntervaL- 
SearcH-Exacriy(T, 1), onde T é uma árvore de intervalos e i é um intervalo. A operação deve retornar um 
ponteiro para um nó x em 7 tal que x.int. baixo = ibaixo e x.int.alto = ialto ou Tnil se T não contiver 
nenhum nó desse tipo. Todas as operações, incluindo IntervaL-SearcH-ExacriLy, devem ser executadas no tempo 
O(lg n) em uma árvore de n nós. 


Mostre como manter um conjunto dinâmico OQ de múmeros que suporta a operação Min-Gar, que dá a 
magnitude da diferença entre os dois números mais próximos em Q. Por exemplo, se O = (1,5,9, 15, 18, 
22), então Min-Gar(Q) retoma 18 — 15 = 3, já que 15 e 18 são os dois números mais próximos em O. 
Maximize a eficiência das operações Inserr, DELETE, SEARCH E MiN-Gar, € analise seus tempos de execução. 


* Normalmente, os bancos de dados de VLSI representam um circuito integrado como uma lista de 
retângulos. Suponha que os lados de cada retângulo estejam alinhados paralelamente aos eixos x e y, de 
modo que podemos representar cada um deles por suas coordenadas x e y mínima e máxima. Dê um 
algoritmo de tempo O(n lg n) para decidir se um conjunto de n retângulos assim representados contém ou não 
dois retângulos que se sobrepõem. Seu algoritmo não precisa informar todos os pares que se interceptam, mas 
deve informar que existe uma sobreposição se um retângulo cobrir inteiramente outro retângulo, ainda que as 
linhas de contorno não se interceptem. (Sugestão: Movimente uma linha “de varredura” pelo conjunto de 
retângulos.) 


Problemas 
14-1 Ponto de sobreposição máxima 


Suponha que desejemos manter o controle de um ponto de sobreposição máxima em um conjunto de 
intervalos — um ponto que tenha o maior número de intervalos no banco de dados que se sobreponham a ele. 


a. Mostre que sempre existirá um ponto de sobreposição máxima que é uma extremidade de um dos 
segmentos. 


b. Projete uma estrutura de dados que suporte eficientemente as operações IntervaL-INsERT, INTERVAL-DELETE E 
Frnp-Pom, que retorna um ponto de sobreposição máxima. (Sugestão: Mantenha uma árvore vermelho- 
preto de todas as extremidades. Associe o valor +1 a cada ponto extremo esquerdo e associe o valor —1 
a cada ponto extremo direito. Aumente cada nó da árvore com algumas informações extras para manter 
o ponto de sobreposição máxima.) 


14-2 Permutação de Josephus 


Definimos o problema de Josephus da seguinte maneira. Suponha que n pessoas formem um círculo e que 
temos um inteiro positivo m < n. Começando com uma primeira pessoa designada, prosseguimos em torno do 
círculo, retirando cada m-ésima pessoa. Depois que cada pessoa é retirada, a contagem continua em torno do 
círculo restante. Esse processo continua até retirarmos todas as n pessoas do círculo. A ordem em que as 
pessoas são retiradas do círculo define a permutação de Josephus (n, m) dos inteiros 1, 2,..., n. Por 
exemplo, a permutação de Josephus (7, 3) é (3, 6,2, 7,5, 1,4). 


a. Suponha que m seja uma constante. Descreva um algoritmo de tempo O(n) que, dado um inteiro n, dê 
como saída a permutação de Josephus (n, m). 


b. Suponha que m não seja uma constante. Descreva um algoritmo de tempo O(n lg n) que, dados os 
inteiros n e m, dê como saída a permutação de Josephus (n, m). 


NorTaAs DO CAPÍTULO 


Em seu livro, Preparata e Shamos [282] descrevem várias árvores de intervalos que aparecem na literatura, citando 
o trabalho de H. Edelsbrumer (1980) e E. M. McCreight (1981). O livro detalha uma árvore de intervalos que, dado 
um banco de dados estático de n intervalos, nos permite enumerar, no tempo O(k + lg n), todos os k intervalos que se 
sobrepõem a um determinado intervalo de consulta. 


Parte 


IV TÉCNICAS AVANÇADAS DE PROJETO E 
ANÁLISE 


InrroDuçÃo 


Esta parte focaliza três técnicas importantes para projeto e análise de algoritmos eficientes: programação dinâmica 
(Capítulo 15), algoritmos gulosos (Capítulo 16) e análise amortizada (Capítulo 17). Partes anteriores apresentaram 
outras técnicas de extensa aplicação, como divisão e conquista, aleatorização e solução de recorrências. As técnicas 
aqui apresentadas são um pouco mais sofisticadas, mas nos ajudam a abordar muitos problemas de computação. Os 
temas introduzidos nesta parte aparecerão mais adiante no livro. 

A programação dinâmica se aplica tipicamente a problemas de otimização nos quais fazemos um conjunto de 
escolhas para chegar a uma solução ótima. Ao fazermos cada escolha, muitas vezes, surgem subproblemas do mesmo 
tipo do problema geral abordado. A programação dinâmica é efetiva quando um determinado subproblema pode surgir 
de mais de um conjunto parcial de escolhas; a técnica fundamental é armazenar a solução para cada um desses 
subproblemas, para usar caso, eles apareçam novamente. O Capítulo 15 mostra como essa ideia simples, às vezes, 
pode transformar algoritmos de tempo exponencial em algoritmos de tempo polinomial. 

Como os algoritmos de programação dinâmica, os algoritmos gulosos em geral se aplicam a problemas de 
otimização nos quais fazemos diversas escolhas para chegar a uma solução ótima. A ideia de um algoritmo guloso é 
fazer cada escolha de uma maneira ótima local. Um exemplo simples é o troco: para minimizar o número de moedas 
necessárias para dar o troco para uma determinada quantia, podemos selecionar repetidamente a moeda de maior 
denominação (valor de face) que não seja maior que a quantia que resta. Uma abordagem gulosa dá uma solução ótima 
para muitos problemas desse tipo muito mais rapidamente do que uma abordagem de programação dinâmica daria. 
Porém, nem sempre é fácil dizer se uma abordagem gulosa será efetiva. O Capítulo 16 apresenta a teoria dos 
matroides, que dá uma base matemática que pode nos ajudar a mostrar que um algoritmo guloso produz uma solução 
ótima. 

Usamos análise amortizada para analisar certos algoritmos que executam uma sequência de operações 
semelhantes. Em vez de estimar o custo da sequência de operações limitando o custo real de cada operação 
separadamente, uma análise amortizada impõe um limite para o custo real da sequência inteira. Uma vantagem dessa 
abordagem é que, embora algumas operações possam ser caras, muitas outras podem ser baratas. Em outras palavras, 
muitas das operações poderiam ser executadas em tempos bem menores que o tempo do pior caso. Porém, a análise 
amortizada não é apenas uma ferramenta de análise; é também um modo de pensar no projeto de algoritmos, já que o 
projeto de um algoritmo e a análise de seu tempo de execução muitas vezes estão intimamente relacionados. O Capítulo 
17 apresenta três modos de executar uma análise amortizada de um algoritmo. 


PROGRAMAÇÃO DINÂMICA 


A programação dinâmica, assim como o método de divisão e conquista, resolve problemas combinando as 
soluções para subproblemas. (Nesse contexto, “programação” se refere a um método tabular, não ao processo de 
escrever código de computador.) Como vimos nos Capítulos 2 e 4, os algoritmos de divisão e conquista subdividem o 
problema em subproblemas independentes, resolvem os subproblemas recursivamente e depois combinam suas 
soluções para resolver o problema original. Ao contrário, a programação dinâmica se aplica quando os subproblemas 
se sobrepõem, isto é, quando os subproblemas compartilham subsubproblemas. Nesse contexto, um algoritmo de 
divisão e conquista trabalha mais que o necessário, resolvendo repetidamente os subsubproblemas comuns. Um 
algoritmo de programação dinâmica resolve cada subsubproblema só uma vez e depois grava sua resposta em uma 
tabela, evitando assim, o trabalho de recalcular a resposta toda vez que resolver cada subsubproblema. 

Em geral, aplicamos a programação dinâmica a problemas de otimização. Tais problemas podem ter muitas 
soluções possíveis. Cada solução tem um valor, e desejamos encontrar uma solução com o valor ótimo (mínimo ou 
máximo). Denominamos tal solução “uma” solução ótima para o problema, ao contrário de “a” solução ótima, já que 
podem existir várias soluções que alcançam o valor ótimo. 

O desenvolvimento de um algoritmo de programação dinâmica segue uma sequência de quatro etapas: 


Caracterizar a estrutura de uma solução ótima. 

Definir recursivamente o valor de uma solução ótima. 

Calcular o valor de uma solução ótima, normalmente de baixo para cima. 
Construir uma solução ótima com as informações calculadas. 


dad 


As etapas 1 a 3 formam a base de uma solução de programação dinâmica para um problema. Se precisarmos 
apenas do valor de uma solução ótima, e não da solução em si, podemos omitir a etapa 4. Quando executamos a etapa 
4, às vezes mantemos informações adicionais durante a etapa 3, para facilitar a construção de uma solução ótima. 

As seções a seguir, usam o método de programação dinâmica para resolver alguns problemas de otimização. A 
Seção 15.1 examina o problema de cortar uma haste em hastes de menor comprimento, de modo a maximizar os 
valores totais. A Seção 15.2 pergunta como podemos multiplicar uma cadeia de matrizes e, ao mesmo tempo, executar 
o menor número total de multiplicações escalares. Dados esses exemplos de programação dinâmica, a Seção 15.3 
discute duas características fundamentais que um problema deve ter para que a programação dinâmica seja uma técnica 
de solução viável Em seguida, a Seção 15.4 mostra como determinar a subsequência comum mais longa de duas 
sequências por programação dinâmica. Finalmente, a Seção 15.5 utiliza programação dinâmica para construir árvores 
de busca binária que são ótimas, dada uma distribuição conhecida de chaves que devem ser examinadas. 


15.1 CorrTE DE HASTES 


Nosso primeiro exemplo usa programação dinâmica para resolver um problema simples que é decidir onde cortar 
hastes de aço. A Serling Enterprises compra hastes de aço longas e as corta em hastes mais curtas, para vendê-las. 
Cada corte é livre. A gerência da Serling Enterprises quer saber qual é o melhor modo de cortar as hastes. 

Suponhamos que conhecemos, para i = 1,2,...,n o preço p, em dólares que a Serling Enterprises cobra por uma 
haste de i polegadas de comprimento. Os comprimentos das hastes são sempre um número inteiro de polegadas. A 
Figura 15.1 apresenta uma amostra de tabela de preços. 

O problema do corte de hastes é o seguinte. Dada uma haste de n polegadas de comprimento e uma tabela de 
preços p; para i = 1, 2, ..., n, determine a receita máxima r, que se pode obter cortando a haste e vendendo os 
pedaços. Observe que, se o preço p, para uma haste de comprimento n for suficientemente grande, uma solução ótima 
pode exigir que ela não seja cortada. 

Considere o caso quando n = 4. A Figura 15.2 mostra todas as maneiras de cortar uma haste de 4 polegadas de 
comprimento, incluindo não cortá-la. Vemos que cortar uma haste de 4 polegadas em duas peças de 2 polegadas 
produz a receita p, + p, = 5 + 5 = 10, que é ótima. 

Podemos cortar uma haste de comprimento n de 2,-! modos diferentes — já que temos uma opção independente 
de cortar ou não cortar — à distância de i polegadas da extremidade esquerda, para i = 1, 2,....,n — 1.1 Denotamos 
um desdobramento em pedaços usando notação de adição comum, portanto 7 = 2 + 2 + 3 indica que uma haste de 
comprimento 77 foi cortada em três peças — duas de comprimento 2 e uma de comprimento 3. Se uma solução ótima 
cortar a haste em k pedaços, para algum 1 <k <n, então o desdobramento ótimo 


n=i+it.+i, 


comprimento i | 1 2 3 t 5 6 7 8 9 10 


preço p, 1 é) 8 y 10 17 17 20 24 30 


Figura 15.1 Uma amostra de tabela de preços para hastes. Cada haste de comprimento i polegadas rende pi dólares de receita para a 
empresa. 


(a) (b) (c) (d) 


4] 
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(e) (f) (g) (h) 


Figura 15.2 Os oito modos possíveis de cortar uma haste de comprimento 4. Acima de cada pedaço está o valor de cada um, de acordo 
coma amostra de tabela de preços na Figura 15.1. A estratégia ótima é a parte (c) — cortar a haste em duas peças de comprimento 2 — 
cujo valor total é 10. 


da haste em peças de comprimentos ii, à», ..., irdá a receita máxima correspondente 
Ei a +Pote +Pu 


Em nossa problema-amostra podemos determinar os números da receita ótima r,, para i = 1, 2, ..., 10, por 
inspeção, com os correspondentes desdobramentos ótimos 


r,= 1 pela solução 1 = 1 (nenhum corte), 

r,=5 pela solução 2 = 2 (nenhum corte), 

r;=8 pela solução 3 = 3 (nenhum corte), 

r,= 10 pela solução 4= 2 +2, 

r;= 13 pela solução 5 = 2 +93, 

re= 17 pela solução 6 = 6 (nenhum corte), 

r;= 18 pela solução 7=1+60u7+2+2+3, 

rg = 22 pela solução 8 = 2 +.6, 

r9= 25 pela solução 9 = 3 + 6, 

"ço 30 pela solução 10 = 10 (nenhum corte). 

De modo mais geral, podemos enquadrar os valores r, para n > 1 em termos de receitas ótimas advindas de hastes 
mais curtas: 


r=maxPor + cota tr) (15.1) 


un 


O primeiro argumento, p,, corresponde a não fazer nenhum corte e vender a haste de comprimento n como tal. Os 
outros n — 1 argumentos para max correspondem à receita máxima obtida de um corte inicial da haste em duas peças 
de tamanhos i en — i, para cada i = 1,2,...,n — 1 e, prosseguindo com o corte ótimo dessas peças, obtendo as 
receitas 7, e r,-i dessas duas peças. Visto que não sabemos de antemão qual é o valor de i que otimiza a receita, temos 
de considerar todos os valores possíveis para i e escolher aquele que maximize a receita. Temos também a opção de 
não escolher nenhum i se pudermos obter mais receita vendendo a haste inteira. 

Observe que, para resolver o problema original de tamanho n, resolvemos problemas menores do mesmo tipo, 
porém de tamanhos menores. Uma vez executado o primeiro corte, podemos considerar os dois pedaços como 
instâncias independentes do problema do corte da haste. A solução ótima global incorpora soluções ótimas para os dois 
subproblemas relacionados, maximizando a receita gerada por esses dois pedaços. Dizemos que o problema do corte 
de hastes exibe subestrutura ótima: soluções ótimas para um problema incorporam soluções ótimas para 
subproblemas relacionados, que podemos resolver independentemente. 

Um modo relacionado, mas ligeiramente mais simples de arranjar uma estrutura recursiva para o problema do corte 
de hastes considera que um desdobramento consiste em uma primeira peça de comprimento i cortada da extremidade 
esquerda e o que restou do lado direito, com comprimento n — i. Somente o resto, e não a primeira peça, pode 
continuar a ser dividido. Podemos considerar cada desdobramento de uma haste de comprimento n desse modo: uma 
primeira peça seguida por algum desdobramento do resto. Quando fazemos isso, podemos expressar a solução que não 
contém nenhum corte dizendo que a primeira peça tem tamanho i = n e receita p, e que o resto tem tamanho O com 
receita correspondente 1, = O. Assim, obtemos a seguinte versão mais simples da equação (15.1): 

r, = max ff) (15.2) 

Nessa formulação, uma solução ótima incorpora a solução para somente um subproblema relacionado — o resto 

— em vez de dois. 


Implementação recursiva de cima para baixo 


O procedimento a seguir, implementa o cálculo implícito na equação (15.2) de um modo direto, recursivo, de cima 
para baixo. 


Cur-Rop(p,n) 


1 ifn==0 

2 return O 

3 q=-0 

4 fori=lton 

5 q = max(g, p[i] + Cur-Rop(p, n — i)) 
6 retumg 


O procedimento Cur-Ron toma como entrada um arranjo p[1 ..n] de preços e um inteiro n, e retorna a máxima 
receita possível para uma haste de comprimento n. Se n = 0, nenhuma receita é possível e, portanto, Cur-Rop retorna O 
na linha 2. A linha 3 inicializa a receita máxima q para -o0, de modo que o laço for na linhas 4-5 calcula corretamente q 
= maxi<i< (pi + Cur-Rov(p, n, i)); então, a linha 6 retorna esse valor. Uma simples indução em n prova que essa 
resposta é igual à resposta desejada r,, dada pela equação (15.2). 

Se você tivesse de codificar Cur-Ron em sua linguagem de programação favorita e executá-lo em seu computador, 
veria que, tão logo o tamanho se torna moderadamente grande, seu programa levaria um longo tempo para executá-lo. 
Para n = 40, você verificaria que seu programa demoraria no mínimo vários minutos e, o que é mais provável, mais de 
uma hora. Na verdade, constataria que cada vez que n aumentasse de 1, o tempo de execução de seu programa seria 
aproximadamente duas vezes maior. 

Por que Cur-Rop é tão ineficiente? O problema é que Cur-Rop chama a si mesmo recursivamente repetidas vezes 
com os mesmos valores de parâmetros; resolve os mesmos problemas repetidamente. A Figura 15.3 ilustra o que 
acontece para n = 4: 

Cur-Rop(p, n) chama Cur-Rop(p, n — i) para i = 1,2, ..., n. Equivalentemente, Cur-Rop (p, n) chama Cur-Rop(p, j) 
para cada j = 0, 1,..., n — 1. Quando esse processo se desenrola recursivamente, a quantidade de trabalho realizada, 
em função de n, cresce explosivamente. 

Para analisar o tempo de execução de Cur-Rop, denotamos por T(n) o número total de chamadas feitas a Cur-Rop 
se chamado quando seu segundo parâmetro é igual a n. Essa expressão é igual ao número de nós em uma subárvore 
cuja raiz é identificada por n na árvore de recursão. A contagem inclui a chamada inicial à raiz. Assim, T(0) = 1 e 


T(n)=1+5 T(j). (15.3) 


Figura 15.3 A árvore de recursão que mostra chamadas recursivas resultantes de uma chamada a Cur-Ron(p, n) para n = 4. Cada rótulo 
dá o tamanho n do subproblema correspondente, de modo que uma aresta de um pai comrótulo s para um filho comrótulo £ 
corresponde a cortar uma peça inicial de tamanho s - t e deixar um subproblema restante de tamanho t. Um caminho da raiz a uma folha 
corresponde a um dos 2-1 modos de cortar uma haste de comprimento n. Em geral, essa árvore de recursão tem 2, nós e 2-1 folhas. 


O 1 inicial é para a chamada na raiz, e o termo T(j) conta o número de chamadas (incluindo chamadas recursivas) 
resultantes da chamada Cur-Ron(p, n — i), onde j =n —i. 
Como o Exercício 15.1-1 pede que você mostre, 


T(n)=1+ Sr ). (15.3) 


j=0 


e, assim, o tempo de execução de Cur-Rop é exponencial em n. 

Em retrospectiva, esse tempo de execução exponencial não é surpresa. Cur-Rop considera explicitamente todos os 
2,! modos possíveis de cortar uma haste de comprimento n. A árvore de chamadas recursivas tem 2,-! folhas, uma 
para cada modo possível de cortar a haste. Os rótulos no caminho simples da raiz até uma folha dão os tamanhos de 
cada pedaço restante do lado direito da haste antes de cada corte. Isto é, os rótulos dão os pontos de corte 
correspondentes, medidos em relação à extremidade direita da haste. 


Utilização de programação dinâmica para o corte ótimo de hastes 


Agora, mostramos como converter Cur-Rop em um algoritmo eficiente usando programação dinâmica. 

O método da programação dinâmica finciona da seguinte maneira: agora que já observamos que uma solução 
recursiva ingênua é meficiente porque resolve os mesmos problemas repetidas vezes, nós a adaptamos para resolver 
cada problema somente uma vez e armazenar sua solução. Se precisarmos nos referir novamente a esse problema mais 
tarde, bastará que o examinemos, em vez de o recalcular. Assim, a programação dinâmica usa memória adicional para 
poupar tempo de computação; serve como exemplo de uma permuta tempo-memória. As economias de tempo 
podem ser espetaculares: uma solução de tempo exponencial pode ser transformada em uma solução de tempo 
polinomial. Uma abordagem de programação dinâmica é executada em tempo polinomial quando o número de 
problemas distintos envolvido é polinomial no tamanho da entrada e podemos resolver cada subproblema em tempo 
polinomial. 

Normalmente, há dois modos equivalentes de implementar uma abordagem de programação dinâmica. Ilustraremos 
ambos com nosso exemplo do corte de hastes. 

A primeira abordagem é de cima para baixo com memoização.2 Nessa abordagem, escrevemos o procedimento 
recursivamente de maneira natural, porém modificado para salvar o resultado de cada subproblema (normalmente em 
um arranjo ou tabela hash). Agora, o procedimento primeiro verifica se já resolveu anteriormente esse subproblema. Se 
já o resolveu, retorna o valor salvo, poupando computação adicional nesse nível, se ainda não o resolveu, o 
procedimento calcula o valor da maneira usual. Dizemos que o procedimento recursivo foi memoizado; ele “lembra” 
quais resultados já calculou anteriormente. 

A segunda abordagem é o método de baixo para cima. Essa abordagem depende tipicamente de alguma noção 
natural do “tamanho” de um subproblema, tal que resolver qualquer subproblema particular depende somente de 
resolver subproblemas “menores”. Ordenamos os subproblemas por tamanho e os resolvemos em ordem de tamanho, 
o menor primeiro. Ao resolvemos um determinado problema, já resolvemos todos os subproblemas menores dos quais 
sua solução depende, e já salvamos suas soluções. Resolvemos cada subproblema somente uma vez e, na primeira vez 
que o vemos, já estão resolvidos todos os seus subproblemas pré-requisitados. 

Essas duas abordagens produzem algoritmos com o mesmo tempo de execução assintótico, exceto em 
circunstâncias incomuns, quando a abordagem de cima para baixo não executa recursão propriamente dita para 


examinar todos os subproblemas possíveis. Muitas vezes, a abordagem de baixo para cima tem fatores constantes muito 
melhores, visto que tem menos sobrecarga para chamadas de procedimento. 

Apresentamos a seguir, o pseudocódigo para o procedimento Cur-Rop de cima para baixo, acrescido de 
memoização: 


MemoizEeD-CUT-ROD(p, n1) 


1 sejar[0..n] um novo arranjo 

2 fori=0Oton 

E) r[i] = -oo 

4 return MEMOIZED-CUT-ROD-Aux(p, n1,1) 


MEMoIzED-CUT-ROD-AUx(p, 1,1) 


if r[n]>0 
return r[n] 
ifn== 
q=0 
else q = -o0 
fori=1ton 
q = max(g, p[i] + MemoIzeD-CuT-RoD-Aux(p, n — 1,1)) 
rin]=q 
return q 


O CONOR ONm 


Aqui, o procedimento principal Memoizen-Cur-Rop inicializa um novo arranjo auxiliar r[O .. n] com o valor -c0, uma 
escolha conveniente para denotar “desconhecido”. (Valores de receita conhecidos são sempre não negativos.) Então, 
ele chama sua rotina auxiliar, MemoizeD-CuT-RoD-AUX. 

O procedimento Memoizen-Cur-Rop-Aux é apenas a versão memoizada de nosso procedimento anterior, Cur-Rop. 
Primeiro ele consulta a linha 1 para verificar se o valor desejado já é conhecido; se for, a linha 2 retorna esse valor. 
Caso contrário, as linhas 3-7 calculam o valor desejado q na maneira usual, a linha 8 o salva em r[n], e a linha 9 o 
retorna. 

A versão de baixo para cima é ainda mais simples: 


Borrom-Ur-Cur-Rop(p,n) 


seja r[0 .. n] um novo arranjo 
r[0] = O 
forj= 1 ton 
q==b5 
fori=1toj 
q = max(g, pli] + rlj — 1]) 
Wl=q 
return r[n] 


CO VOA GR ONm 


No caso da abordagem da programação dinâmica de baixo para cima , Borrom-Ur-Cur--Rop usa a ordenação 
natural dos subproblemas: um subproblema de tamanho i é “menor” do que um subproblema de tamanho j se i < j. 
Assim, o procedimento resolve subproblemas de tamanhos j = 0, 1, ..., n, naquela ordem. 

A linha 1 do procedimento Borrom-Ur-Cur-Rop cria um novo arranjo r[0 .. n] no qual salvar os resultados dos 
subproblemas, e a linha 2 inicializa r[0] com 0, visto que uma haste de comprimento O não rende nenhuma receita. As 
linhas 3-6 resolvem cada subproblema de tama>nho ;, para j = 1, 2, ..., n, em ordem crescente de tamanho. A 
abordagem usada para resolver um problema de determinado tamanho j é a mesma usada por Cur-Rop, exceto que 
agora a linha 6 referencia diretamente a entrada r[j — i] em vez de fazer uma chamada recursiva para resolver o 
subproblema de tamanho ; — i. A linha 7 salva em r[;] a solução do subproblema de tamanho ;. Finalmente, a linha 8 
retorna r[n], que é igual ao valor ótimo r,. 


As versões de baixo para cima e de cima para baixo têm o mesmo tempo de execução assintótico. O tempo de 
execução do procedimento Borrom-Ur-Cur-Rop é Q(n,), devido à sua estrutura de laço duplamente aninhado. O número 
de iterações de seu laço for interno nas linhas 5-6 forma uma série aritmética. O tempo de execução de sua contraparte 
de cima para baixo, Memoizen-Cur-Rop, também é Q(n,), embora esse tempo de execução possa ser um pouco mais 
dificil de ver. Como uma chamada recursiva para resolver um subproblema já resolvido antes retorna imediatamente, 
Memoizen-Cur-Rop resolve cada subproblema apenas uma vez. Esse procedimento resolve subproblemas para tamanhos 
O, 1,..., n. Para resolver um subproblema de tamanho n, o laço for das linhas 6-7 itera n vezes. Assim, o número total 
de iterações desse laço for, para todas as chamadas recursivas de MemoizeD-Cur-Rop, forma uma série aritmética que dá 
um total de Q(n,) iterações, exatamente como o laço for interno de Borrom-Ur-Cur-Rop. (Na verdade, aqui estamos 
usando uma forma de análise agregada. Veremos os detalhes da análise agregada na Seção 17.1.) 


Figura 15.4 O grafo do subproblema para o problema do corte de haste comn =4. Os rótulos nos vértices dão os tamanhos dos 
subproblemas correspondentes. Um vértice dirigido (x, y) indica que precisamos de uma solução para o subproblema y quando 
resolvemos o subproblema x. Esse grafo é uma versão reduzida da árvore da Figura 15.3, na qual todos os nós que têm o mesmo rótulo 
são integrados em umúnico vértice e todas as arestas vão de pai para filho. 


Grafos de subproblemas 


Quando pensamos em um problema de programação dinâmica, temos de entender o conjunto de subproblemas 
envolvido e como os subproblemas dependem uns dos outros. 

O grafo de subproblemas para o problema incorpora exatamente essa informação. A Figura 15.4 mostra o grafo 
de subproblemas para o problema do corte de haste com n = 4. É um grafo dirigido, que contém um vértice para cada 
subproblema distinto. O grafo de subproblemas tem um vértice dirigido do vértice para o subproblema x até o vértice 
para o subproblema y se a determinação de uma solução ótima para o subproblema x envolver considerar diretamente 
uma solução ótima para o subproblema y. Por exemplo, o grafo de subproblema contém um vértice de x a y se um 
procedimento recursivo de cima para baixo para resolver x diretamente chamar a si mesmo para resolver y. Podemos 
imaginar o grafo de subproblema como uma versão “reduzida” ou “colapsada” da árvore de recursão para o método 
recursivo de cima para baixo, na qual reunimos todos os nós para o mesmo subproblema em um único vértice e 
orientamos todos os vértices de pai para filho. 

O método de baixo para cima para programação dinâmica considera os vértices do grafo de subproblema em uma 
ordem tal que resolvemos os subproblemas y adjacentes a um dado subproblema x antes de resolvermos o 
subproblema x. (Lembre-se de que dissemos, na Seção B.4, que a relação de adjacência não é necessariamente 
simétrica.) Usando a termmologia do Capítulo 22, em um algoritmo de programação dinâmica de baixo para cima, 
consideramos os vértices do grafo de subproblema em uma ordem que é uma “ordenação topológica reversa” ou uma 
“ordenação topológica do transposto” (veja a Seção 22.4) do grafo de subproblema. Em outras palavras, nenhum 
subproblema é considerado até que todos os subproblemas dos quais ele depende tenham sido resolvidos. De modo 
semelhante, usando noções do mesmo capítulo, podemos considerar o método de cima para baixo (com memoização) 
para programação dinâmica como uma “busca em profundidade” do grafo de subproblema (veja a Seção 22.3). 

O tamanho do grafo de subproblema G = (V, E) pode nos ajudar a determinar o tempo de execução do algoritmo 
de programação dinâmica. Visto que resolvemos cada subproblema apenas uma vez, o tempo de execução é a soma 
dos tempos necessários para resolver cada subproblema. Normalmente, o tempo para calcular a solução de um 
subproblema é proporcional ao grau (número de vértices dirigidos para fora) do vértice correspondente no grafo de 
subproblema, e o número de subproblemas é igual ao número de vértices no grafo de subproblema. Nesse caso 
comum, o tempo de execução da programação dinâmica é linear em relação ao número de vértices e arestas. 


Reconstruindo uma solução 


Nossas soluções de programação dinâmica para o corte de hastes devolvem o valor de uma solução ótima, mas 
não devolvem uma solução propriamente dita: uma lista de tamanhos de peças. Podemos estender a abordagem da 
programação dinâmica para registrar não apenas o valor ótimo calculado para cada subproblema, mas também uma 
escolha que levou ao valor ótimo. Com essa informação, podemos imprimir imediatamente uma solução ótima. 

Apresentamos a seguir uma versão estendida de BOTTOM-UP-CUT-ROD que calcula, para cada tamanho de 
haste j, não somente a receita máxima r,, mas também s,, o tamanho ótimo da primeira peça a ser cortada. 


ExrENDED-BoTTOM-UP-CUT-ROD(p, n1) 


sejam r[0 .. n]e s[0.. n]novos arranjos 
r[0] = O 
forj=1ton 

q=-00 


ifg <pl+rj— id 
qg=pt+rlj—d 
sljl=i 

Hjl=9 


10 returnrands 


1 
2 
3 
4 
5 fori=ltoj 
6 
7 
8 
9 


Esse procedimento é semelhante a Borrom-Ur-Cur-Rop, exceto pela criação do arranjo s na linha 1 e pela 
atualização de s[;] na linha 8 para conter o tamanho ótimo i da primeira peça a cortar ao resolver um subproblema de 
tamanho ;. 

O procedimento apresentado a seguir toma um tabela de preços p e um tamanho de haste n e chama Exrenvep- 
Borrom-Ur-Cur-Rop para calcular o arranjo s[1 .. n] de tamanhos ótimos da primeira peça e depois imprime a lista 
completa de tamanho de peças conforme um desdobramento ótimo de uma haste de comprimento n: 


PriNT-CUT-ROD-SOLUTION(p, n) 


(r,s) = ExrENDED-BoTTOM-UP-CUT-ROD(p, n) 
whilen > 0 

print s[n] 

n=n-— sn] 


BON mA 


Em nosso exemplo do corte de haste, a chamada Exrenven-Borrom-Ur-Cur-Ron(p,10) retornaria os seguintes 
arranjos: 


i 0 1 2 3 + o) 6 7 8 9. dO 
ri] | 0 1 5 8 10 13 17 18 22 25 30 
sli] | O 1 2 3 2 2 6 1 2 > 40 


Uma chamada a Print-Cur-Rop-Socurion(p,10) imprimiria apenas 10, mas uma chamada com n = 7 imprimíria os 
cortes 1 e 6, correspondentes ao primeiro desdobramento ótimo para 1, dado anteriormente. 


Exercícios 
15.1-1 Mostre que a equação (15.4) decorre da equação (15.3) e da condição inicial T(0) = 1. 


15.1-2 Mostre, por meio de um contraexemplo, que a seguinte estratégia “gulosa” nem sempre determina um modo 
ótimo de cortar hastes. Defina a densidade de uma haste de comprimento i como p;/i, isto é, seu valor por 
polegada. A estratégia gulosa para uma haste de comprimento n corta uma primeira peça de comprimento i, 
onde 1 <i<n, om densidade máxima. Então, continua aplicando a estratégia gulosa à peça resultante de 
comprimento n — i. 


15.1-3 Considere uma modificação do problema do corte da haste no qual, além de um preço p, para cada haste, 
cada corte incorre em um custo fixo c. A receita associada à solução agora é a soma dos preços das peças 
menos os custos da execução dos cortes. Dê um algoritmo de programação dinâmica para resolver esse 
problema modificado. 


15.1-4 Modifique Memoizep-Cur-Rop para retornar não somente o valor, mas também a solução propriamente dita. 


15.1-5 Os números de Fibonacci são definidos pela recorrência (3.22). Dê um algoritmo de programação dinâmica 
de tempo O[n] para calcular o n-ésimo número de Fibonacci Desenhe o grafo de subproblema. Quantos 
vértices e arestas existem no grafo? 


15.2 MurriPLICAÇÃO DE CADEIAS DE MATRIZES 


Nosso próximo exemplo de programação dinâmica é um algoritmo que resolve o problema de multiplicação de 
cadeias de matrizes. Temos uma sequência (cadeia) (4,, 4,, ..., 4,) de n matrizes para multiplicar e desejamos calcular 
o produto 


cds cool (15.5) 


ad n 


Podemos avaliar a expressão (15.5) usando o algoritmo-padrão para multiplicação de pares de matrizes como uma 
sub-rotina, tão logo a tenhamos parentizado para resolver todas as ambiguidades relativas à multiplicação das matrizes 
entre si. A multiplicação de matrizes é associativa e, portanto, não importa como são colocadas entre parênteses; o 
produto entre elas é sempre o mesmo. Um produto de matrizes é totalmente parentizado se for uma única matriz ou o 
produto de dois produtos de matrizes totalmente parentizadas também expresso entre parênteses. Por exemplo, se a 
cadeia de matrizes é (4,, 45, 4, 4,), podemos expressar o produto 4, 4, 4, 4, como totalmente parentizado de cinco 
modos distintos: 


(A(ALA AD). 
(AMA AJA). 
(A,AXA A). 
(AA, ADA, 
(A AJAJA) 


O modo como colocamos parênteses em uma cadeia de matrizes pode ter um impacto expressivo sobre o custo de 
avaliação do produto. Considere primeiro o custo de multiplicar duas matrizes. O algoritmo-padrão é dado pelo 
pseudocódigo a seguir, que generaliza o procedimento Square-Marrix-MurnrLy da Seção 4.2. Os atributos linhas e 
colunas são os números de linhas e colunas em uma matriz. 


MarTRrIx-MULTIPLY(A,B) 


if A.colunas = B.linhas 
error “dimensões incompatíveis” 
else seja C uma nova A.linhas e B.colunas 
fori = Oto A.inhas 
for | = 1 to B.colunas 
2,=0 
for k = 1 to A.colunas 
C=C, TA 


O oO NOACGTEoOÕNm 


return C 


Podemos multiplicar duas matrizes 4 e B somente se elas forem compatíveis: o número de colunas de 4 deve ser 
igual ao número de linhas de B. Se 4 é uma matriz p : q e B é uma matriz q * r, a matriz resultante C é uma matriz p - r. 
O tempo para calcular €C é dominado pelo número de multiplicações escalares na linha 8, que é pgr. A seguir, 
expressaremos os custos em termos do número de multiplicações escalares. 

Para ilustrar os diferentes custos incorridos pelas diferentes posições dos parênteses em um produto de matrizes, 
considere o problema de uma cadeia (4,, 4,, 4,) de três matrizes. Suponha que as dimensões das matrizes sejam 10 - 
100, 100 - 5 e 5 - 50, respectivamente. Se multiplicarmos as matrizes de acordo com a posição dos parênteses 
((A,A)A,), executaremos 10 - 100 - 5 = 5.000 multiplicações escalares para calcular o produto 10 - 5 de matrizes 4, 
A,, mais outras 10 - 5 - 50 = 2.500 multiplicações escalares para multiplicar essa matriz por 4,, produzindo um total de 
7.500 multiplicações escalares. Se, em vez disso, multiplicarmos de acordo com a posição dos parênteses (A (4, 4,)), 
executaremos 100 - 5 - 50 = 25.000 multiplicações escalares para calcular o produto 100 - 50 de matrizes 4, 4,, mais 
outras 10 - 100 - 50 = 50.000 multiplicações escalares para multiplicar 4, por essa matriz, dando um total de 75.000 
multiplicações escalares. Assim, o cálculo do produto de acordo com a primeira posição dos parênteses é 10 vezes 


mais rápido. 
Enunciamos o problema de multiplicação de cadeias de matrizes da seguinte maneira: dada uma cadeia (4,, 
Ás, ... 4,) de n matrizes onde, para i = 1,2,...,n, a matriz 4, tem dimensão p, - 1 : p,, expresse o produto 4,, 45, ... 4, 


como um produto totalmente parentizado de modo a minimizar o número de multiplicações escalares. 

Observe que no problema de multiplicação de cadeias de matrizes, não estamos realmente multiplicando matrizes. 
Nossa meta é apenas determinar uma ordem para multiplicar matrizes que tenha o custo mais baixo. Em geral, o tempo 
investido na determinação dessa ordem ótima é mais que compensado pelo tempo economizado mais tarde, quando as 
multiplicações de matrizes são de fato executadas (por exemplo, executar apenas 7.500 multiplicações escalares em vez 
de 75.000). 


Contagem do número de parentizações 


Antes de resolver o problema de multiplicação de cadeias de matrizes por programação dinâmica, temos de nos 
convencer de que a verificação exaustiva de todas as possíveis parentizações não resulta em um algoritmo eficiente. 
Vamos representar por P(n) o número de parentizações alternativas de uma sequência de n matrizes. Quando n = 1, há 
apenas uma matriz e, portanto, somente um modo de parentizar totalmente o produto de matrizes. Quando n = 2, um 
produto de matrizes totalmente parentizado é o produto de dois subprodutos de matrizes totalmente parentizados, e a 
separação entre os dois subprodutos pode ocorrer entre a k-ésima e a (k + 1)-ésima matrizes para qualquer k = 1,2, 
«o n— 1. Assim, obtemos a recorrência 


1 sen=1, 


P — 4 n-1 15.6 
(n) SS P()P(n—k) sen>2. Ed 
k=1 


O Problema 12-4 pediu para mostrar que a solução para uma recorrência semelhante é a sequência de números 
de Catalan, que cresce como (4n/n,,). Um exercício mais simples (veja o Exercício 15.2-3) é mostrar que a solução 
para a recorrência (15.6) é (2n). Portanto, o número de soluções é exponencial em n e o método de força bruta de 
busca exaustiva é uma estratégia ruim para determinar a parentização ótima de uma cadeia de matrizes. 


Aplicação da programação dinâmica 


Usaremos o método da programação dinâmica para determinar a parentização ótima de uma cadeia de matrizes. 
Para tal, seguiremos a sequência de quatro etapas declaradas no início deste capítulo: 


Caracterizar a estrutura de uma solução ótima. 

Definir recursivamente o valor de uma solução ótima. 
Calcular o valor de uma solução ótima. 

Construir uma solução ótima com as informações calculadas. 


pe o 


Percorreremos essas etapas em ordem, demonstrando claramente como aplicar cada etapa ao problema. 


Etapa 1: A estrutura de uma parentização ótima 


Em nossa primeira etapa do paradigma de programação dinâmica, determinamos a subestrutura ótima e depois a 
usamos para construir uma solução ótima para o problema partindo de soluções ótimas para subproblemas. No 
problema de multiplicação de cadeias de matrizes, podemos executar essa etapa da maneira descrita a seguir. Por 
conveniência, vamos adotar a notação 4,-1, onde i < j para a matriz que resulta da avaliação do produto 4, A+! --: 
A4;. Observe que, se o problema é não trivial, isto é, se i <j, então, para parentizar o produto 4, 4,+1 --: A; temos de 
separá-lo entre 4, e 4,+1 para algum inteiro k no intervalo i <k <j. Isto é, para algum valor de k, primeiro calculamos 
as matrizes 4, ..ke A,+1..;, e depois multiplicamos as duas para gerar o produto final 4, ..;. O custo dessa parentização 
é o custo de calcular a matriz 4,..k, mais o custo de calcular 4,+1 ..;, mais o custo de multiplicá-las uma pela outra. 

A subestrutura ótima desse problema é dada a seguir. Suponha que para efetuar a parentização ótima de 4, A+ 
""" A; separamos o produto entre 4, e 4,+1. Então, o modo como posicionamos os parênteses na subcadeia “prefixo” 
A;A;hl -:- Ay dentro dessa parentização ótima de 4, 4;+! --- A, deve ser uma parentização ótima de 4, Aj+l --- Ap. 
Por quê? Se existisse um modo menos dispendioso de parentizar 4, A+! --: Ap então poderíamos substituir essa 
parentização na parentização ótima de 4, 4;+! --: A, para produzir um outro modo de parentizar 4, A,+1 :-- 4, cujo 
custo seria mais baixo que o custo ótimo: uma contradição. Uma observação semelhante é válida para parentizar a 
subcadeia A+! Aj+2 --: Ajna parentização ótima de 4, 4;t :-- A;: ela deve ser uma parentização ótima de 4,+! 
AR As 

Agora, usamos nossa subestrutura ótima para mostrar que podemos construir uma solução ótima para o problema 
pelas soluções ótimas para subproblemas. Vimos que qualquer solução para uma instância não trivial do problema de 
multiplicação de cadeias de matrizes requer que separemos o produto e que qualquer solução ótima contém em si 
soluções ótimas para instâncias de subproblemas. Assim, podemos construir uma solução ótima para uma instância do 
problema de multiplicação de cadeias de matrizes separando o problema em dois subproblemas (pela parentização 
ótima de 4,Aj+l --- Ae AH A+2::: A), determinando soluções ótimas para instâncias de subproblemas e depois 
combinando essas soluções ótimas de subproblemas. Devemos assegurar que, quando procurarmos o lugar correto 
para separar o produto, consideremos todos os lugares possíveis, para termos certeza de que examinamos a opção 
ótima. 


Etapa 2: Uma solução recursiva 


Em seguida, definimos recursivamente o custo de uma solução ótima em termos das soluções ótimas para 
subproblemas. No caso do problema de multiplicação de cadeias de matrizes, escolhemos como nossos subproblemas 
os problemas da determinação do custo mínimo da parentização de 4,4,+1 --- A para l<i<j<n. Seja mli, j]o 
número mínimo de multiplicações escalares necessárias para calcular a matriz A, ..;; para o problema completo, o custo 
mínimo para calcular 4, , seria, portanto, m[1, n]. 

Podemos definir m[i, ;] recursivamente da maneira descrita a seguir. Se i = j;, o problema é trivial; a cadeia consiste 
em apenas uma matriz 4, .. i = 4,, de modo que nenhuma multiplicação escalar é necessária para calcular o produto. 
Assim, ml[i, i] = O para i = 1,2, ..., n. Para calcular m[i, ;] quando i <;, tiramos proveito da estrutura de uma solução 
ótima da etapa 1. Vamos considerar que, para obter a parentização ótima, separamos o produto 4, A+! -:: 4; entre 
A e AI, onde i<k<;j. Então, m[i, j] é igual ao custo mínimo para calcular os subprodutos 4,.. ke 4,+1 ..j, mais O 
custo de multiplicar essas duas matrizes. Recordando que cada matriz 4, é p, - ! - p;, vemos que o cálculo do produto 
de matrizes 4, .. k A+! ../ exige p; - ! p, p; multiplicações escalares. Assim, obtemos 


mli,jl = m[i,k] + mk + 1,j]4 Eessbadp 


Essa equação recursiva supõe que conhecemos o valor de k, o que não é verdade. Porém, há somente j — i 
valores possíveis para k, isto é, k = i,i+ 1,...,j — 1. Visto que a parentização ótima deve usar um desses valores para 
k, precisamos apenas verificar todos eles para determinar o melhor. Assim, nossa definição recursiva para o custo 
mínimo de colocar o produto 4, 4;+! -:: A; entre parênteses se torna 


cão NO sei = j, 157 
dá im min (ml[i,kJ+m[k+Ljl+p,,p,p;) sei<j. Na) 
i<k<j E ê j E 

Os valores m[i, ;] dão os custos de soluções ótimas para subproblemas, mas não dão todas as informações de que 
necessitamos para construir uma solução ótima. Para nos ajudar a fazer isso, definimos s[i, 7] como um valor de k no 


qual separamos o produto 4, A+! -:: 4; para obter uma parentização ótima. Isto é, s[i, j] é igual a um valor k tal que 
mli,jJ=mli, AJ +m[k+ 1,j]+p;- 1 pp; 


Etapa 3: Cálculo dos custos ótimos 


Neste ponto, seria fácil escrever um algoritmo recursivo baseado na recorrência (15.7) para calcular o custo 
mínimo m[1,n] para multiplicar 4, 4, *-- 4,. Como vimos no problema do corte de hastes de aço, e como veremos na 
Seção 15.3, esse algoritmo recursivo demora um tempo exponencial, o que não é nada melhor que o método da força 
bruta de verificar cada maneira de parentizar o produto. 

Observe que temos um número relativamente pequeno de subproblemas distintos: um problema para cada escolha 


de iej que satisfaça | <i<j<nou (o n = Q(n,) no total Um algoritmo recursivo pode encontrar cada 
2 


subproblema, muitas vezes, em diferentes ramos de sua árvore de recursão. Essa propriedade de sobrepor 
subproblemas é a segunda indicação da aplicabilidade da programação dinâmica (a subestrutura ótima é a primeira). 

Em vez de calcular a solução para a recorrência (15.7) recursivamente, calculamos o custo ótimo usando uma 
abordagem tabular de baixo para cima. (Na Seção 15.3, apresentaremos a abordagem de cima para baixo 
correspondente usando memoização.) 

Implementaremos o método tabular, de cima para baixo, no procedimento Marrix-CHarn--ORDER, que aparece mais 
adiante. Esse procedimento supõe que a matriz 4, tem dimensões p, - 1 - p, para i = 1,2, ..., n. Sua entrada é uma 
sequência p = (Po, P1» --.» P,), onde p.comprimento = n + 1. O procedimento utiliza uma tabela auxiliar m[1..n, 1... 1n] 


para armazenar os custos mi, 7] e uma outra tabela auxiliar s[1 ..n — 1... n] que registra qual índice de k alcançou o 
custo ótimo no cálculo de m[i, |. Usaremos a tabela s para construir uma solução ótima. 

Para implementar a abordagem de baixo para cima, devemos determinar a quais entradas da tabela nos referimos 
para calcular m[i, ;]. A equação (15.7) mostra que o custo m[i, ;] de calcular um produto de cadeias de j - i+1 
matrizes só depende dos custos de calcular os produtos de cadeias de menos que j — i + 1 matrizes. Isto é, para k = i, i 
+ 1,...,j— 1, a matriz 4, .. + é um produto dek —i+1 <j—i+ 1 matrizes, e a matriz A,+1 ..j é um produto de j — k < 
j—i + 1 matrizes. Assim, o algoritmo deve preencher a tabela m de um modo que corresponda a resolver o problema 
da parentização em cadeias de matrizes de comprimento crescente. Para o subproblema da parentização ótima da 
cadeia 4, A+l --: A; admítimos que o tamanho do subproblema é o comprimento j — i + 1 da cadeia. 


MATRIX-CHAIN-ORDER (p) 


n = p.comprimento — 1 
sejamm[1..n,1..njes[1..n — 12..n] tabelas novas 
fori=1 ton 
mli,i])=0 
forl=2ton /[ | é o comprimento da cadeia 
fori=lton-1l+1 
j=i+l-1 
ml, |] = 00 
fork=itoj-—1 
10 q=ml[i,k]+m[k+ 1,7] + Pabi, 
11 if q <mli,j] 
12 m[i,j]=q 
13 s[i,j]=k 
14 returnmes 


O oO NO GTRONm 


O algoritmo calcula primeiro m[i, i] = O para i = 1,2, ...., n (os custos mínimos para cadeias de comprimento 1) 
nas linhas 3-4. Então, usa a recorrência (15.7) para calcular m[i, i + 1] para i = 1,2,...,n — 1 (os custos mínimos para 
cadeias de comprimento / = 2) durante a primeira execução do laço for nas linhas 5-13. Na segunda passagem pelo 
laço, o algoritmo calcula mi, i + 2] para i = 1,2,...,n — 2 (os custos mínimos para cadeias de comprimento / = 3), e 
assim por diante. Em cada etapa, o custo mi, | calculado nas linhas 10-13 depende apenas das entradas de tabela 
mli, k]em[k + 1,j] já calculadas. 

A Figura 15.5 ilustra esse procedimento em uma cadeia de n = 6 matrizes. Visto que definimos mli, /] somente 
para i =, apenas a porção da tabela m estritamente acima da diagonal principal é usada. A tabela mostrada na figura 
sofreu uma rotação para colocar a diagonal principal na posição horizontal. A lista ao longo da parte inferior da figura 
mostra a cadeia de matrizes. Usando esse leiaute, podemos determinar o custo mínimo mi, j] para multiplicar uma 
subcadeia de matrizes 4, 4;+! - :- A;na mterseção de linhas que partem de 4, na direção nordeste e de 4,. Cada linha 
horizontal na tabela contém as entradas para cadeias de matrizes do mesmo comprimento. Marrix-CHarn-OrpEr calcula 
as linhas de baixo para cima e da esquerda para a direita dentro de cada linha. Calcula cada entrada m[i, j] usando os 
produtos p; - ! p,?i parak =i,i+ 1,...,j — 1 e todas as entradas a sudoeste e a sudeste de mi, j]. 

Uma simples inspeção da estrutura de laços aninhados de Marrix-CHarn-OrDer produz um tempo de execução de 
O(n,) para o algoritmo. Os laços estão aninhados com profundidade três, e cada índice de laço (/, i e k) adota no 
máximo n valores. O Exercício 15.2-5 pede que você mostre que o tempo de execução desse algoritmo é mesmo (n,). 
O algoritmo requer espaço Q(n,) para armazenar as tabelas m e s. Assim, Marrix-CHaiN-ORDER É muito mais eficiente 
que o método de tempo exponencial que enumera todas as possíveis parentizações e verifica cada uma delas. 


| 


m s 


matriz A A, A, A A. A 


dimensão 30-35 35-15 15-53 5-10 10 - 20 20 - 25 


As tabelas sofreram uma rotação para colocar a diagonal principal na posição horizontal. A tabela m usa somente a 
diagonal principal e o triângulo superior, e a tabela s usa somente o triângulo superior. O número mínimo de 
multiplicações escalares para multiplicar as seis matrizes é m[1, 6] = 15.125. Entre as entradas sombreadas nos três 
tons mais escuros, os pares que têm o mesmo sombreado são tomados juntos na linha 10 quando se calcula 


ml[2,2] + m[3,5] + p,p, Ps = 0 + 2500 + 35-15-20= 13,000, 
m[2,5] = miny m[2,3] + m[4,5] + p,p,ps = 2625 + 1000+35-5-20 = 7125, 
m[2,4] + m[5,5]+ p,p,ps = 4375 +0+35-:10-20= 11,375 
e À 18.559 


Etapa 4: Construção de uma solução ótima 


Embora determine o número ótimo de multiplicações escalares necessárias para calcular um produto de cadeias de 
matrizes, Marrix-CHaiN-OrpEr não mostra diretamente como multiplicar as matrizes. A tabela s[1 ..n — 1,2, ...., n] nos dá 
a informação que precisamos para fazer isso. Cada entrada s[i, j] registra um valor de k tal que uma parentização ótima 
de 4,A;tl --: A; separa o produto entre 4, e 4,+1. Assim, sabemos que a multiplicação de matrizes final no cálculo 
ótimo de 4, ,, 6 4,:-s!,, A/,, +... Podemos determinar as multiplicações de matrizes anteriores recursivamente, já 
que s[1, s[1,n determina a última multiplicação de matrizes no cálculo de 4, .. st, | e s[s[1, n] + 1, n] determma a 
última multiplicação de matrizes no cálculo de 4,1, +1... O procedimento recursivo a seguir imprime uma parentização 
ótima de (A, AMI, ..., Ad, dada a tabela s calculada por Marrix-CHain-Orper € Os índices i e j. A chamada inicial Prinr- 
OptiMaL-PaRENS(S, 1, 11) imprime uma parentização ótima de (4,, 45, ..., An). 


PrINT-OPTIMAL-PARENS(s, 1, /) 

Ef === | 
print “A”, 

else print “(” 
PrINT-OPTIMAL-PARENS(S, 1, s[i, /]) 
PriINT-OPTIMAL-PARENS(S, s[1,/] + 1,7) 


O GR ON 


print “)” 


No exemplo da Figura 15.5 a chamada Print-OrmimaL-Parens(s, 1, 6) imprime a parentização de ((A, (4, A) (A, 
As) Ag). 


Exercícios 


15.2-1 Determine uma parentização ótima de um produto de cadeias de matrizes cuja sequência de dimensões é (5, 
10,3, 12,3,90,6). 


15.2-2 Dê um algoritmo recursivo Marrix-CHarn-MuLnrLv(A, s, i, j) que realmente execute a multiplicação ótima de 
cadeias de matrizes, dadas a sequência de matrizes (4,, 45, ..., 4,), à tabela s calculada por Marrix-CHain- 
OrpER € OS índices i e j. (A chamada inicial seria Marrix-CHain-MuzrrLy(A, s, 1, 11).) 


15.2-3 Use o método de substituição para mostrar que a solução para a recorrência (15.6) é O(2n). 


15.2-4 Descreva o grafo de subproblema para multiplicação de cadeia de matrizes com uma cadeia de entrada de 
comprimento n. Quantos vértices ele tem? Quantas arestas ele tem e quais são essas arestas? 


15.2-5 Seja R(i, j) o número de vezes que a entrada de tabela mi, ;] é referenciada durante o cálculo de outras 
entradas de tabela em uma chamada de Marrix-CHarn-Orper. Mostre que o número total de referências para a 
tabela inteira é 


E en 


a 
= fi 3 
(Sugestão: A equação (A.3) pode ser útil.) 


15.2-6 Mostre que uma parentização completa de uma expressão de n elementos tem exatamente n — 1 pares de 
parênteses. 


15.3 ELEMENTOS DE PROGRAMAÇÃO DINÂMICA 


Embora tenhamos acabado de analisar dois exemplos do método de programação dinâmica, é bem possível que 
você ainda esteja imaginando exatamente quando aplicar o método. Do ponto de vista da engenharia, quando devemos 
procurar uma solução de programação dinâmica para um problema? Nesta seção, examinamos os dois elementos 
fundamentais que um problema de otimização deve ter para que a programação dinâmica seja aplicável: subestrutura 
ótima e sobreposição de subproblemas. Também voltaremos a discutir mais completamente como a memoização pode 


nos ajudar a aproveitar a propriedade de sobreposição de subproblemas em uma abordagem recursiva de cima para 
baixo. 


Subestrutura ótima 


O primeiro passo para resolver um problema de otimização por programação dinâmica é caracterizar a estrutura 
de uma solução ótima. Lembramos que um problema apresenta uma subestrutura ótima se uma solução ótima para o 
problema contiver soluções ótimas para subproblemas. Sempre que um problema exibir subestrutura ótima, temos uma 
boa indicação de que a programação dinâmica pode se aplicar. (Porém, como discutiremos no Capítulo 16, isso 
também pode significar que uma estratégia gulosa é aplicável.) Em programação dinâmica, construímos uma solução 
ótima para o problema partindo de soluções ótimas para subproblemas. Consequentemente, devemos ter o cuidado de 
garantir que a faixa de subproblemas que consideramos inclui aqueles usados em uma solução ótima. 

Encontramos uma subestrutura ótima em ambos os problemas examinados neste capítulo até agora. Na Seção 
15.1, observamos que o modo mais rápido de cortar uma haste de comprimento n (se a cortarmos) envolve cortar 
otimamente as duas peças resultantes do primeiro corte. Na Seção 15.2, observamos que uma parentização ótima de 4, 
Apt! -:- A, que separa o produto entre 4, e 4,+1 contém soluções ótimas para os problemas de parentização de 4, 
Ati: A CAMADA, 

Você perceberá que está seguindo um padrão comum para descobrir a subestrutura ótima: 

1. Mostrar que uma solução para o problema consiste em fazer uma escolha, como a de escolher um corte inicial em 
uma haste ou um índice no qual separar a cadeia de matrizes. Essa escolha produz um ou mais subproblemas a 
resolver. 

2. Supor que, para um dado problema, existe uma escolha que resulta em uma solução ótima. Você ainda não se 
preocupa com a maneira de determinar essa escolha. Basta supor que ela existe. 

3. Dada essa escolha, determinar quais subproblemas dela decorrem e como caracterizar melhor o espaço de 
subproblemas resultante. 

4. Mostrar que as soluções para os subproblemas usados dentro de uma solução ótima para o problema também 
devem ser ótimas utilizando uma técnica de “recortar e colar”. Para tal, você supõe que alguma das soluções de 
subproblemas não é ótima e, então, deduz uma contradição. Em particular, “recortando” a solução não ótima para 
cada subproblema e “colando” a solução ótima, você mostra que pode conseguir uma solução melhor para o 
problema original, o que contradiz a suposição de que você já tinha uma solução ótima. Se uma solução ótima der 
origem a mais de um subproblema, normalmente eles serão tão semelhantes que você pode modificar o argumento 
“recortar e colar” usado para um deles e aplicá-lo aos outros com pouco esforço. 

Para caracterizar o espaço de subproblemas, uma boa regra prática é tentar manter o espaço tão simples quanto 
possível e depois expandi-lo conforme necessário. Por exemplo, o espaço de subproblemas que consideramos para o 
problema do corte da haste continha os problemas de determinar o corte ótimo para uma haste de comprimento i para 
cada tamanho i. Esse espaço de subproblemas funcionou bem e não tivemos nenhuma necessidade de tentar um espaço 
de subproblemas mais geral. 

Ao contrário, suponha que tivéssemos tentado restringir nosso espaço de subproblemas para a multiplicação de 
cadeias de matrizes a produtos de matrizes da forma 4, 4, ::: A,. Como antes, uma parentização ótima deve separar 
esse produto entre 4, e 4,+1 para algum | < k <j. A menos que possamos garantir que k é sempre iguala j — 1, 
constataremos que tínhamos subproblemas da forma 4, 4, -:: Ae A+ A +2 --: Aj, e que este último subproblema 
não é da forma 4, 4, -: A; Para esse problema, tivemos que permitir que nossos subproblemas variassem em 
“ambas as extremidades”, isto é, permitir que i e j variassem no subproblema 4, 4 +1 --: 4, 

A subestrutura ótima varia nos domínios de problemas de duas maneiras: 

1. o múmero de subproblemas usados em uma solução ótima para o problema original. 

2. o número de opções que temos para determinar qual(is) subproblema(s) usar em uma solução ótima. 


No problema do corte da haste, uma solução ótima para cortar uma haste de tamanho n usa apenas um 
subproblema (de tamanho n — 7), mas temos de considerar n escolhas para i para determinar qual deles produz uma 
solução ótima. A multiplicação de cadeias de matrizes para a subcadeia 4, 4,+1 --: A; serve como um exemplo com 
dois subproblemas e j - i escolhas. Para uma dada matriz 4, na qual separamos o produto, temos dois subproblemas 
— a parentização de 4, Aj+l --: A e a parentização de 4,+1 4,+2 --- 4; — e devemos resolver ambos otimamente. 
Uma vez determinadas as soluções ótimas para subproblemas, escolhemos entre j — i candidatos para o índice k. 

Informalmente, o tempo de execução de um algoritmo de programação dinâmica depende do produto de dois 
fatores: o número global de subproblemas e quantas escolhas consideramos que existem para cada subproblema. No 
corte de hastes tínhamos Q(n) subproblemas no total e no máximo n escolhas para examinar para cada um, resultando 
no tempo de execução O(n,). Na multiplicação de cadeias de matrizes, tinhamos Q(n,) subproblemas no total e, em 
cada um deles, tínhamos no máximo n — 1 escolhas, dando um tempo de execução O(n,) (na verdade, um tempo de 
execução Q(n,) pelo Exercício 15.2-5). 

Normalmente, o grafo de subproblemas dá um modo alternativo de executar a mesma análise. Cada vértice 
corresponde a um subproblema, e as escolhas para um subproblema são as arestas que nele incidem. Lembre-se de 
que, no corte de hastes, o grafo do subproblema tinha n vértices e no máximo n arestas por vértice, resultando no 
tempo de execução O(n,). Na multiplicação de cadeia de matrizes, o grafo de subproblemas, se o tivéssemos 
desenhado, teria Q(n,) vértices e cada vértice teria um grau de no máximo n — 1, o que resultaria em um total de O(n,) 
vértices e arestas. 

A programação dinâmica usa frequentemente a subestrutura ótima de baixo para cima. Isto é, primeiro 
encontramos soluções ótimas para subproblemas e, resolvidos os subproblemas, encontramos uma solução ótima para 
o problema. Encontrar uma solução ótima para o problema acarreta escolher, entre os subproblemas, aqueles que 
usaremos na solução do problema. Normalmente, o custo da solução do problema é igual aos custos dos 
subproblemas, mais um custo atribuível diretamente à escolha em si Por exemplo, no corte de hastes, primeiro 
resolvemos os subproblemas de determinar maneiras ótimas de cortar hastes de comprimento i para i=0,1,..,n-1e 
depois determinamos qual subproblema produz uma solução ótima para uma haste de comprimento n, usando a 
equação (15.2). O custo atribuível à escolha em si é o termo p, na equação (15.2). Na multiplicação de cadeias de 
matrizes, determinamos a parentização ótima de subcadeias de 4,4;+! --: 4, e então escolhemos a matriz 4, na qual 
separar o produto. O custo atribuível à escolha propriamente dita é o termo p; - 1 p, P; 

No Capítulo 16, examinaremos os “algoritmos gulosos”, que guardam muitas semelhanças com a programação 
dinâmica. Em particular, os problemas aos quais os algoritmos gulosos se aplicam têm subestrutura ótima. Uma 
diferença notável entre algoritmos gulosos e programação dinâmica é que, em vez de primeiro encontrar soluções ótimas 
para subproblemas e depois fazer uma escolha informada, os algoritmos gulosos primeiro fazem uma escolha “gulosa” 
— a que parece melhor no momento — e depois resolvem um problema resultante, sem se darem ao trabalho de 
resolver todos os possíveis subproblemas menores relacionados. 

Surpreendentemente, em alguns casos a estratégia funciona! 


Sutilezas 


Devemos ter cuidado para não presumir que a subestrutura ótima seja aplicável quando não é. Considere os dois 
problemas a seguir, nos quais temos um grafo dirigido G = (V, E) e vértices u, v E V. 


Caminho mais curto não ponderado:3 Encontrar um caminho de u para v que consista no menor número de 
arestas. Tal caminho deve ser simples, já que remover um ciclo de um caminho produz um caminho com menos 
arestas. 


Caminho simples mais longo não ponderado: Encontrar um caminho simples de u para v que consista no maior 
número de arestas. Precisamos incluir o requisito de simplicidade porque, do contrário, acabamos percorrendo 
um ciclo tantas vezes quantas quisermos para criar caminhos com um número arbitrariamente grande de arestas. 


O problema do caminho mais curto não ponderado exibe subestrutura ótima, como mostramos a seguir. Suponha 
que u + v, de modo que o problema é não trivial. Então, qualquer caminho p de u para v deve conter um vértice 
intermediário, digamos w. (Observe que w pode ser u ou v.) Assim, podemos decompor o caminho u p v em 
subcaminhos u p:w p>v. É claro que o número de arestas em p é igual ao número de arestas em p, mais o número de 
arestas em p,. Afirmamos que, se p é um caminho ótimo (isto é, o mais curto) de u para v, então p, deve ser um 
caminho mais curto de u para w. Por quê? Usamos um argumento de “recortar e colar”: se existisse outro caminho, 
digamos de u para w com menos arestas que p”,, poderíamos recortar p, e colar em p”, para produzir um caminho u p”; 
w p2v com menos arestas que p, assim contra-dizendo a otimalidade de p. Simetricamente, p, deve ser um caminho 
mais curto de w para v. Assim, podemos encontrar um caminho mais curto de u para v considerando todos os vértices 
intermediários w, encontrando um caminho mais curto de u para w e um caminho mais curto de w para v, e escolhendo 
um vértice intermediário w que produza o caminho mais curto global. Na Seção 25.2, usamos uma variante dessa 
observação de subestrutura Ótima para encontrar um caminho mais curto entre cada par de vértices em um grafo 
ponderado e dirigido. 

É tentador supor que o problema de encontrar um caminho simples mais longo não ponderado também exibe 
subestrutura ótima. Afinal, se desdobrarmos um caminho simples mais longo u v em subcaminhos u “:w “v, então p 
não deve ser um caminho simples mais longo de u para w, e p, não deve ser um caminho simples mais longo de w para 
v? A resposta é não! A Figura 15.6 nos dá um exemplo. Considere o caminho q > r — t, que é um caminho simples 
mais longo de q para t. O caminho q — r é um caminho simples mais longo de q para 7? Não, já que o caminho q — s 
> t > r é um caminho simples mais longo. 7 — t é um caminho simples mais longo de r para t? Novamente não, já 
que o caminho 7 > q > s — t é um caminho simples mais longo. 

Esse exemplo mostra que, para caminhos simples mais longos, não apenas falta uma subestrutura ótima para o 
problema, mas tampouco podemos montar necessariamente uma solução “legítima” para o problema a partir de 
soluções para subproblemas. Se combinarmos os caminhos simples mais longos g >s>t>rer>ogoS>s>St, 
obteremos o caminho q >s>5>t>5r>5>79>5> t, que não é simples. Na realidade, o problema de encontrar um 
caminho simples mais longo não ponderado não parece ter nenhum tipo de subestrutura ótima. Nenhum algoritmo 
eficiente de programação dinâmica foi encontrado para esse problema até hoje. De fato, esse problema é NP- 
completo, que — como veremos no Capítulo 34 — significa que é improvável que ele possa ser resolvido em tempo 
polinomial. 

Por que a subestrutura de um caminho simples mais longo é tão diferente da subestrutura de um caminho mais 
curto? Embora uma solução para um problema para ambos, o caminho mais longo e o mais curto, use dois 
subproblemas, os subproblemas para encontrar o caminho simples mais longo não são independentes, mas o são para 
caminhos mais curtos. O que significa subproblemas independentes? Significa que a solução para um subproblema não 
afeta a solução para outro subproblema do mesmo problema. No exemplo da Figura 15.6, temos o problema de 
encontrar um caminho simples mais longo de q para t com dois subproblemas: encontrar caminhos simples mais longos 
de q para r e de r para t. Para o primeiro desses subproblemas, escolhemos o caminho q > s > t > re, portanto, 
também usamos os vértices s e t. Não podemos mais usar esses vértices no segundo subproblema, já que a 
combinação das duas soluções para subproblemas produziria um caminho que não é simples. Se não podemos usar o 
vértice t no segundo problema, não podemos resolvê-lo, já que t tem de estar no caminho que encontrarmos, e ele não 
é o vértice no qual estamos “encaixando” as soluções do subproblema (esse vértice é 7). Como usamos os vértices s e £ 
em uma solução de subproblema, não podemos usá-los na solução do outro subproblema. Porém, temos de usar, no 
mínimo, um deles para resolver o outro subproblema e temos de usar ambos para resolvê-lo otimamente. Assim, 
dizemos que esses subproblemas não são independentes. Visto de outro modo, usar recursos para resolver um 
subproblema (sendo esses recursos os vértices) torna-os indisponíveis para o outro subproblema. 


| 


Figura 15.6 Um grafo dirigido mostrando que o problema de encontrar um caminho simples mais longo em um grafo dirigido não 
ponderado não tem subestrutura ótima. O caminho q — 7 > t é um caminho simples mais longo de q para t, mas o subcaminho q > r 
não é um caminho simples mais longo de q para r nemo subcaminho r — t é um caminho simples mais longo de r para t. 


Então, por que os subproblemas são independentes para encontrar um caminho mais curto? A resposta é que, por 
natureza, os subproblemas não compartilham recursos. Afirmamos que, se um vértice w está em um caminho mais curto 
p de u para v, então podemos emendar qualquer caminho mais curto u “-w e qualquer caminho mais curto w £v 
para produzir um caminho mais curto de u para v. Estamos seguros de que, além de w, nenhum vértice pode aparecer 
nos caminhos p, e p,. Por quê? Suponha que algum vértice x £ w apareça tanto em p, quanto em p,, de modo que 
podemos decompor p, como u “= x — w e p, como w *s v. Pela subestrutura ótima desse problema, o caminho p tem 
tantas arestas quanto p, e p, juntos; vamos dizer que p tenha e arestas. Agora, vamos construir um caminho p” = u pu 
w p»v de u para v. Como cortamos os caminhos de x para w e de w para x e cada um deles contém no mínimo uma 
aresta, o caminho p, contém no máximo e — 2 arestas, o que contradiz a hipótese de p ser um caminho mais curto. 
Assim, estamos seguros de que os subproblemas para o problema do caminho mais curto são independentes. 

Ambos os problemas examinados nas Seções 15.1 e 15.2 têm subproblemas independentes. Na multiplicação de 
cadeias de matrizes, os subproblemas são multiplicar subcadeias 4, A,+1 --- Ae A+ AH ::- A, Essas subcadeias 
são disjuntas, de modo que não haveria possibilidade de alguma matriz ser incluída em ambas. No corte de hastes, para 
determinar o melhor modo de cortar uma haste de comprimento n, consideramos os melhores modos de cortar hastes 
de comprimento i para i=0,1,...,n — 1. Como uma solução ótima para o problema do comprimento n inclui apenas 
uma dessas soluções de subproblemas (após termos cortado o primeiro pedaço), a independência de subproblemas 
nem entra no assunto. 


Subproblemas sobrepostos 


O segundo elemento que um problema de otimização deve ter para a programação dinâmica ser aplicável é que o 
espaço de subproblemas deve ser “pequeno”, no sentido de que um algoritmo recursivo para o problema resolve os 
mesmos subproblemas repetidas vezes, em lugar de sempre gerar novos subproblemas. Em geral, o número total de 
subproblemas distintos é um polinômio no tamanho de entrada. Quando um algoritmo recursivo reexamina o mesmo 
problema repetidamente, dizemos que o problema de otimização tem subproblemas sobrepostos. Ao contrário, um 
problema para o qual uma abordagem de divisão e conquista é adequada, normalmente gera problemas absolutamente 
novos em cada etapa da recursão. Algoritmos de programação dinâmica, normalmente tiram proveito de subproblemas 
sobrepostos resolvendo cada subproblema uma vez e depois armazenando a solução em uma tabela onde ela pode ser 
examinada quando necessário, usando um tempo constante por busca. 

Na Seção 15.1, examinamos brevemente como uma solução recursiva para o problema do corte de hastes faz 
exponencialmente muitas chamadas para encontrar soluções para problemas menores. Nossa solução de programação 
dinâmica toma um algoritmo recursivo de tempo exponencial e o reduz a um algoritmo de tempo linear. 


Para ilustrar a propriedade de subproblemas sobrepostos com mais detalhes, vamos examinar novamente o 
problema de multiplicação de cadeias de matrizes. Consultando mais uma vez a Figura 15.5, observe que Marrix-CHain- 
Orper consulta repetidamente a solução para subproblemas em linhas inferiores quando está resolvendo subproblemas 
em linhas superiores. Por exemplo, referencia a entrada m[3, 4] quatro vezes: durante os cálculos de m[2, 4], m[1, 4], 
m[3, 5] e m[3, 6]. Se tivéssemos de recalcular m[3, 4] toda vez, em vez de apenas consultá-la, o tempo de execução 
aumentaria expressivamente. Para ver como, considere o seguinte procedimento recursivo (ineficiente) que determina 
m[i, j], o número mínimo de multiplicações escalares necessárias para calcular o produto de cadeias de matrizes 4, ..j = 
A; Ajtl +: A; O procedimento é diretamente baseado na recorrência (15.7). 


RECURSIVE-MATRIX-CHAIN(p, 1, /) 


1 dEi==] 
po return O 
3 mli,jl=0%0 
4 fork=itoj—1 
5 q = RECURSIVE-MATRIX-CHAIN(p, 1, k) 
+ REecursIVE-MATRIX-CHAIN(p, k + 1,7) 
TP; PP, 
if q <ml[i,]] 
7 ml[1,]]=q 


8 retum mli,)] 


A Figura 15.7 mostra a árvore de recursão produzida pela chamada Recursive-Marrix--CHain(p, 1, 4). Cada nó é 
identificado pelos valores dos parâmetros i e j. Observe que alguns pares de valores ocorrem muitas vezes. 

De fato, podemos mostrar que o tempo para calcular m[1, n] por esse procedimento recursivo é no mínimo 
exponencial em n. Seja T(n) o tempo tomado por Recursive-Marrix-CHarn para calcular uma parentização ótima de uma 
cadeia de n matrizes. Como cada uma das execuções das linhas 1-2 e das linhas 6-7 demora no mínimo tempo unitário, 
assim como a multiplicação na linha 5, a inspeção do procedimento produz a recorrência 


3.3 4.4 WD UM DA Sc RM DE 


Figura 15.7 A árvore de recursão para a execução de ReCuRsive-MarRix-CHarn(p, 1, 4). Cada nó contémos parâmetros i e j. Os cálculos 
executados emuma subárvore sombreada são substituídos por uma única consulta à tabela em MeMoizen-MarRix-CHaiN. 


T)>1, 
n—1 


T(n)>1+ > «(T(k) +T(n-k)+1) paran>l. 


k=1 


Observando que, para i = 1,2,...,n — 1, cada termo T(i) aparece uma vez como T(k) e uma vez como T(n — k), e 
reunindo os n — 1 valores 1 no somatório com o valor 1 à frente, podemos 


n—l 
T(n)>25 T(j+n. (15.8) 
i=1 
Provaremos que T(n) = Q(2,) usando o método de substituição. Especificamente, mostraremos que T(n) >2,-1 
para todo n > 1. A base é fácil, já que T(1) > 1 = 20. Por indução, para n > 2, temos 


T(n) >25 9 +n 
i=1 
- 2552 +n 


1=0 
=2(2"" -1)+n (pela equação (A.5)) 
=2"-24n 
> qu ? 


o que conclui a prova. Assim, a quantidade total de trabalho executado pela chamada Recursive-Marrix-CHar(p, 1, n) é 
no mínimo exponencial em n. 

Compare esse algoritmo recursivo de cima para baixo (sem memoização) com o algoritmo de programação 
dinâmica de baixo para cima. Este último é mais eficiente porque tira proveito da propriedade de subproblemas 
sobrepostos. A multiplicação de cadeias de matrizes tem somente Q(n,) subproblemas distintos, e o algoritmo de 
programação dinâmica resolve cada um deles exatamente uma vez. Por outro lado, novamente o algoritmo recursivo 
deve resolver cada subproblema toda vez que ele reaparece na árvore de recursão. Sempre que uma árvore de 
recursão para a solução recursiva natural para um problema contiver o mesmo subproblema repetidamente e o número 
total de subproblemas distintos for pequeno, a programação dinâmica pode melhorar a eficiência, às vezes, 
expressivamente. 


Reconstrução de uma solução ótima 


Como regra prática, muitas vezes, armazenamos em uma tabela a opção que escolhemos em cada subproblema, 
de modo que não tenhamos de reconstruir essa informação com base nos custos que armazenamos. 

Na multiplicação de cadeias de matrizes, a tabela s[i, 7] poupa uma quantidade significativa de trabalho durante a 
reconstrução de uma solução ótima. Suponha que não mantivéssemos a tabela s[i, ;], tendo preenchido apenas a tabela 
mli, ;], que contém custos de subproblemas ótimos. Escolhemos entre ; — i possibilidades quando determinamos quais 
subproblemas usar em uma solução ótima para parentizar 4, Ajt! --: A, e j — i não é uma constante. Portanto, 
demoraria o tempo Q(j — i) = «(1) para reconstrur os subproblemas que escolhemos para uma solução de um 
problema dado. Armazenando em s[i, ;] o índice da matriz nos quais separamos o produto 4, 4;+! -:- 4, podemos 
reconstruir cada escolha no tempo O(1). 


Memoização 


Como vimos no problema do corte de hastes, há uma abordagem alternativa para a programação dinâmica que 
frequentemente oferece a eficiência da abordagem de programação dinâmica de baixo para cima e ao mesmo tempo 
mantém uma estratégia de cima para baixo. A ideia é memoizar o algoritmo recursivo natural mas ineficiente. Como na 
abordagem de baixo para cima, mantemos uma tabela com soluções de subproblemas, mas a estrutura de controle para 
preencher a tabela é mais semelhante ao algoritmo recursivo. 

Um algoritmo recursivo memoizado mantém uma entrada em uma tabela para a solução de cada subproblema. 
Cada entrada da tabela contém inicialmente um valor especial para indicar que a entrada ainda tem de ser preenchida. 
Quando o subproblema é encontrado pela primeira vez durante a execução do algoritmo recursivo, sua solução é 
calculada e depois armazenada na tabela. Cada vez subsequente que encontrarmos esse subproblema, simplesmente 
consultamos o valor armazenado na tabela e o devolvemos.5 

Apresentamos a seguir, uma versão memoizada de Recursive-Marrix-CHain. Observe os pontos de semelhança com 
o método de cima para baixo memoizado para o problema do corte de hastes. 


MEMoIZED-MATRIX-CHAIN (p) 


1 n=p.comprimento — 1 

2 sejam[1..n,1..n] uma nova tabela 
3 fori=lton 

4 forj=iton 

5 mli, j] = 00 

6 


return LOOKUP-CHAIN (11, p, 1,1) 
Lookur-CHAIN (mn, p,1,]) 


1 ifmli,j]<o 
2 return im[i, j] 
d His=] 
4 mli,j]=0 
5 elsefork=itoj-—1 
6 q = Lookur-CHAIN (im, p,i,k) 
+ Lookur-CHAIN (m,p,k +1,) +, DP, 
if q <mli,7] 
8 mli,j]=q 
9 return mli,/] 


N 


O procedimento MemorzeD-Marrix-CHarN, assim como o procedimento Marrix-CHain-OrDer, mantém uma tabela 
m[1..n, 1..n] de valores calculados de m[i, ;], o número mínimo de multiplicações escalares necessárias para calcular a 
matriz 4... Cada entrada de tabela contém inicialmente o valor oo para indicar que a entrada ainda tem de ser 
preenchida. Quando a chamada Looxur-CHain(p, i, j) é executada, se a linha 1 verificar que m[i, ;] < 00, o procedimento 
simplesmente retorna o custo m[i, |] calculado anteriormente na linha 2. Caso contrário, o custo é calculado como em 
Recursive-Matrix-CHAIN, armazenado em m[i, j] e retornado. Assim, Lookur-CHar(p, i, /) sempre retorna o valor de m[i, 
7], mas só o calcula na primeira chamada de Looxur-CHars que tenha esses valores específicos de i e j. 

A Figura 15.7 ilustra como Memoizen-Marrix-CHaIN poupa tempo em comparação com Recursive-Marrix-CHAIN. Às 
subárvores sombreadas representam valores que o procedimento consulta em vez de recalcular. 

Do mesmo modo que o algoritmo de programação dinâmica de baixo para cima Marrix-CHarN-ORDER, O 
procedimento Memoizen-Marrix-CHaIn é executado em tempo O(n,). A linha 5 de MeMoizen-Marrix-CHarn é executada 
O(n,) vezes. Podemos classificar as chamadas de Looxur-CHarx em dois tipos: 

1. Chamadas nas quais mi, j = o, de modo que as linhas 3-9 são executadas. 
2. Chamadas nas quais mi, j < 00, de modo que Looxur-CHars simplesmente retorna na linha 2. 


Há Q(n,) chamadas do primeiro tipo, uma por entrada de tabela. Todas as chamadas do segundo tipo são feitas 
como chamadas recursivas por chamadas do primeiro tipo. Sempre que uma dada chamada de Lookur-CHarn faz 
chamadas recursivas, ela faz O(n) chamadas. Assim, há ao todo O(n,) chamadas do segundo tipo. Cada chamada do 
segundo tipo demora o tempo O(1), e cada chamada do primeiro tipo demora o tempo O(n) mais o tempo gasto em 
suas chamadas recursivas. Portanto, o tempo total é O(n,). Assim, a memoização transforma um algoritmo de tempo 
(2,) em um algoritmo de tempo O(n,). 

Resumindo, podemos resolver o problema de multiplicação de cadeias de matrizes no tempo O(n,) por um 
algoritmo de programação dinâmica de cima para baixo memoizado ou por um algoritmo de programação dinâmica de 
baixo para cima. Ambos os métodos tiram proveito da propriedade dos subproblemas sobrepostos. Há apenas Q(n,) 
subproblemas distintos no total e qualquer um desses métodos calcula a solução para cada subproblema somente uma 
vez. Sem memoização, o algoritmo recursivo natural é executado em tempo exponencial, já que subproblemas 
resolvidos são resolvidos repetidas vezes. 

Na prática geral, se todos os subproblemas devem ser resolvidos no mínimo uma vez, o desempenho de um 
algoritmo de programação dinâmica de baixo para cima, normalmente supera o de um algoritmo de cima para baixo 
memoizado por um fator constante porque o algoritmo de baixo para cima não tem nenhuma sobrecarga para recursão 
e a sobrecarga associada à manutenção da tabela é menor. Além disso, em alguns problemas podemos explorar o 
padrão regular de acessos a tabelas no algoritmo de programação dinâmica para reduzir ainda mais os requisitos de 
tempo ou espaço. Alternativamente, se alguns subproblemas no espaço de subproblemas não precisarem ser resolvidos 
de modo algum, a solução memoizada tem a vantagem de resolver somente os subproblemas que são definitivamente 
necessários. 


Exercícios 


15.3-1 Qual modo é mais eficiente para determinar o número ótimo de multiplicações em um problema de 
multiplicação de cadeias de matrizes: enumerar todos os modos de parentizar o produto e calcular o número 
de multiplicações para cada um ou executar Recursive-Marrix-CHarN? Justifique sua resposta. 


15.3-2 Desenhe a árvore de recursão para o procedimento Mercr-Sorrda Seção 2.3.1 em um arranjo de 16 
elementos. Explique por que a memoização não aumenta a velocidade de um bom algoritmo de divisão e 
conquista como Mergr-Sorr. 


15.3-3 Considere uma variante do problema da multiplicação de cadeias de matrizes na qual a meta é parentizar a 
sequência de matrizes de modo a maximizar, em vez de minimizar, o número de multiplicações escalares. Esse 
problema exibe subestrutura ótima? 


15.3-4 Como já dissemos, em programação dinâmica primeiro resolvemos os subproblemas e depois escolhemos 
qual deles utilizar em uma solução ótima para o problema. A professora Capulet afirma que nem sempre é 
necessário resolver todos os subproblemas para encontrar uma solução ótima. Ela sugere que podemos 
encontrar uma solução ótima para o problema de multiplicação de cadeias de matrizes escolhendo sempre a 
matriz 4, na qual separar o subproduto 4, 4;+! :-- 4, (selecionando k para minimizar a quantidade p; - 1 p, 
P;) antes de resolver os subproblemas. Determine uma instância do problema de multiplicação de cadeias de 
matrizes para a qual essa abordagem gulosa produz uma solução subótima. 


15.3-5 Suponha que, no problema do corte de hastes da Seção 15.1, tivéssemos também o limite /, para o número de 
peças de comprimento i que era permitido produzir, para i = 1, 2,...,n. Mostre que a propriedade de 
subestrutura ótima descrita na Seção 15.1 deixa de ser válida. 


15.3-6 Imagine que você queira fazer o câmbio de uma moeda por outra e percebe que, em vez de trocar 
diretamente uma moeda por outra, seria melhor efetuar uma série de trocas intermediárias por outras moedas, 
por fim tendo em mãos a moeda que queria. Suponha que você possa trocar n moedas diferentes, numeradas 
de 1,2,...n, que começará com a moeda 1 e quer terminar com a moeda n. Você tem, para cada par de 
moedas i e j, uma taxa de câmbio r;, o que significa que, se você começar com d unidades da moeda i, 
poderá trocá-las por dr, unidades da moeda j. Uma sequência de trocas pode acarretar uma comissão, que 
depende do número de trocas que você faz. Seja c, a comissão cobrada quando você faz k trocas. Mostre 
que, se c, = O para todo k = 1,2,...,n, o problema de determinar a melhor sequência de trocas da moeda 1 
para a moeda n exibe subestrutura ótima. Então, mostre que, se as comissões c, são valores arbitrários, o 
problema de determinar a melhor sequência de trocas da moeda 1 para a moeda n não exibe necessariamente 
subestrutura ótima. 


15.4 SuBsEQUÊNCIA COMUM MAIS LONGA 


Em aplicações biológicas, muitas vezes, é preciso comparar o DNA de dois (ou mais) organismos diferentes. Um 
filamento de DNA consiste em uma cadeia de moléculas denominadas bases, na qual as bases possíveis são adenina, 
guanina, citosina e timina. Representando cada uma dessas bases por sua letra inicial, podemos expressar um filamento 
de DNA como uma cadeia no conjunto finito (A,C,G,T>. (O Apêndice C dá a definição de uma cadeia.) Por exemplo, 
o DNA de um organismo pode ser S, = ACCGGTCGAGTGCGCGGAAGCCGGCCGAA, e o DNA de outro 
organismo pode ser S, = GTCGTTCGGAATGCCGTTGCTCTGTAAA. Uma razão para a comparação de dois 
filamentos de DNA é determinar o grau de “semelhança” entre eles, que serve como alguma medida da magnitude da 
relação entre os dois organismos. Podemos definir (e definimos) a semelhança de muitas maneiras diferentes. Por 
exemplo, podemos dizer que dois filamentos de DNA são semelhantes se um deles for uma subcadeia do outro. (O 
Capítulo 32 explora algoritmos para resolver esse problema.) Em nosso exemplo, nem S, nem S, é uma subcadeia do 
outro. Alternativamente, poderíamos dizer que dois filamentos são semelhantes se o número de mudanças necessárias 
para transformar um no outro for pequeno. (O Problema 15-3 explora essa noção.) Ainda uma outra maneira de medir 
a semelhança entre filamentos S, e S, é encontrar um terceiro filamento S, no qual as bases em S, aparecem em cada um 
dos filamentos S, e S,; essas bases devem aparecer na mesma ordem, mas não precisam ser necessariamente 
consecutivas. Quanto mais longo o filamento S, que pudermos encontrar, maior será a semelhança entre S, e S, . Em 
nosso exemplo, o filamento S, mais longo é GTCGTCGGAAGCCGGCCGAA. 

Formalizamos essa última noção de semelhança como o problema da subsequência comum mais longa. Uma 
subsequência de uma determinada sequência é apenas a sequência dada na qual foram omitidos zero ou mais elementos. 
Em termos formais, dada uma sequência X = (x,, X,, ..., X,) uma outra sequência Z = (z,, Z,, ..., Z,)) é uma 
subsequência de X se existir uma sequência estritamente crescente (i,, i, ..., à,) de índices de X tais que, para todo j = 
1,2; du EDS E z; Por exemplo, Z = (B, €, D, B) é uma subsequência de X = (4, B, €, B, D, 4, B) com 
sequência de índices correspondente (2, 3, 5, 7). 

Dadas duas sequências X e Y, dizemos que uma sequência Z é uma subsequência comum de X e Yse Z é uma 
subsequência de X e Y. Por exemplo, se X = (4,B,C,B,D,4,B)e Y=(B,D,C,4,B,4), a sequência (B, C, 4) é 
uma subsequência comum das sequências X e Y. Porém, a sequência (B, C, 4) não é uma subsequência comum mais 
longa (LCS — longest common subsequence) de X e Y, já que tem comprimento 3, e a sequência (B, C, B, 4), que 
também é comum a X e Y, tem comprimento 4. A sequência (B, C, B, 4) é uma LCS de X e Y, assim como a sequência 
(B, D, 4, B), visto que não existe nenhuma subsequência comum de comprimento 5 ou maior. 

No problema da subsequência comum mais longa, temos duas sequências X = (x,,Xx,,...,X,) € Y=(V, > «.. 
V,» € desejamos encontrar uma subseguência comum de comprimento máximo de X e Y. Esta seção mostra como 
resolver o problema da LCS eficientemente, usando programação dinâmica. 


Etapa 1: Caracterização de uma subsequência comum mais longa 


Uma abordagem de força bruta para resolver o problema da LCS seria enumerar todas as subsequências de X e 
conferir cada subsequência para ver se ela também é uma subsequência de Y, sem perder de vista a subsequência mais 
longa encontrada. Cada subsequência de X corresponde a um subconjunto dos índices (1, 2,..., m) de X. Como X 
tem 2m subsequências, essa abordagem requer tempo exponencial, o que a torna impraticável para sequências longas. 

Porém, o problema da LCS tem uma propriedade de subestrutura ótima, como mostra o teorema a seguir. Como 
veremos, as classes naturais de subproblemas correspondem a pares de “prefixos” das duas sequências de entrada. 
Mais precisamente, dada uma sequência X = (x,, x», .., X,), definimos o i-ésimo prefixo de X, para i= 0, 1,...,m, 
como X,= (x,, x», ..., x;). Por exemplo, se X = (4, B, €, B, D, 4, B), então X,=(4, B, C, B) e X, é a sequência vazia. 


Teorema 15.1 (Subestrutura ótima de uma LCS) 


Sejam X =(x,,X,,..,X) € Y=(P, Yo, -.., Y,) àS sequências, e seja Z = (z,, Z,, ..., Z;) qualquer LCS de Xe Y. 


1. Se Xm =)Yn, então Zk — Xm =)Yn e Zk ral é uma LCS de Xm -1€ Y. = lo 
2. Sexm £Yn, então z: £ x» implica que Z é uma LCS de X, -1e Y. 
3. SeXn nr, então z: £ Ym implica que Z é uma LCS de Xe 4-1. 


Prova (1) Se z, % x,, então podemos anexar x, = y a Z para obter uma subsequência comum de X e Y de 
comprimento k + 1, contradizendo a suposição de que Z é uma subsequência comum mais longa de X e Y. Assim, 
devemos ter z, = x, =, Agora, o prefixo Z, - ! é uma subsequência comum de comprimento (k — 1) de X 1 e Ya. 
Desejamos mostrar que ela é uma LCS. Suponha, por contradição, que exista uma subsequência comum W de X,-! e 
Y-1 com comprimento maior que k — 1. Então, anexar x, = y, a W produz uma subsequência comum de X e Y cujo 
comprimento é maior que k, o que é uma contradição. 

(2) Se z: £ xm, então Z é uma subsequência comum de X»-1 e Y. Se existisse uma subsequência comum W de X, - 1 
e Y com comprimento maior que k, então W seria também uma subsequência comum de X, e Y, contradizendo a 
suposição de que Z é uma LCS de Xe Y. 

(3) A prova é simétrica a (2). 


O modo como o Teorema 15.1 caracteriza subsequências comuns mais longas nos diz que uma LCS de duas 
sequências contém uma LCS de prefixos das duas sequências. Assim, o problema de LCS tem uma propriedade de 
subestrutura ótima. Uma solução recursiva também tem a propriedade de subproblemas sobrepostos, como veremos 
em breve. 


Etapa 2: Uma solução recursiva 


O Teorema 15.1 subentende que devemos examinar um ou dois subproblemas quando queremos encontrar uma 
LCS deX=(x,x,,...,Xx )€Y=(WV, > -..,Y). SEX, = Y, devemos encontrar uma LCS de X -1e Y-1. Anexar x, = 
v, a essa LCS produz uma LCS de Xe Y. Sex, £ , então devemos resolver dois subproblemas: encontrar uma LCS 
de X le Ye encontrar uma LCS de Xe Y-1. A mais longa de qualquer dessas duas LCS é uma LCS de Xe Y. Como 
esses casos esgotam todas as possibilidades, sabemos que uma das soluções ótimas de subproblemas certamente 
aparecerá dentro de uma LCS de Xe Y. 

É fácil ver a propriedade de subproblemas sobrepostos no problema da LCS. Para encontrar uma LCS de X e Y, 
pode ser necessário encontrar as LCS de Xe Y1e de X 1 e Y. Porém, cada um desses subproblemas tem o 
subsubproblema de encontrar uma LCS de XY, -1 e Y-1. Muttos outros subproblemas compartilham subsubproblemas. 

Como ocorreu no problema de multiplicação de cadeias de matrizes, nossa solução recursiva para o problema da 
LCS envolve estabelecer uma recorrência para o valor de uma solução ótima. Vamos definr c[i, 7] como o 


comprimento de uma LCS das sequências X,e Y. Se i= 0 ouj = 0, uma das sequências tem comprimento O e, 
portanto, a LCS tem comprimento 0. A subestrutura ótima do problema da LCS dá a fórmula recursiva 


0 sei=00uj=0, 
cli,jl=jcdi-1,j-1]+1 sei,j>0ex =y,, 
max(c[i,j — 1), cli—1, j)sei,j>0ex, = y;. (15.9) 


Observe que, nessa formulação recursiva, uma condição no problema restringe os subproblemas que podemos 
considerar. Quando x, = y,, podemos e devemos considerar o subproblema de encontrar a LCS de X-1 e Y-1. Caso 
contrário, consideramos os dois subproblemas de encontrar uma LCS de X,e Y-le de X-l e Y. Nos algoritmos de 
programação dinâmica que já examinamos — para corte de hastes e para multiplicação de cadeias de matrizes —, não 
descartamos nenhum subproblema por causa de condições no problema. O algoritmo para encontrar uma LCS não é o 
único algoritmo de programação dinâmica que descarta subproblemas com base em condições no problema. Por 
exemplo, o problema da distância de edição (ver o Problema 15-3) tem essa característica. 


Etapa 3: Cálculo do comprimento de uma LCS 


Tendo como base a equação (15.9), seria fácil escrever um algoritmo recursivo de tempo exponencial para calcular 
o comprimento de uma LCS de duas sequências. Contudo, visto que o problema da LCS tem somente Q(mn) 
subproblemas distintos, podemos usar programação dinâmica para calcular as soluções de baixo para cima. 

O procedimento LCS-Lenora toma duas sequências X = (x,, X,, .., X) € Y=(Yp Y> -.., Y)) como entradas. 
Armazena os valores c[i, ;] em uma tabela c[0 .. m, O... n] e calcula as entradas em ordem orientada por linha (isto 
é, preenche a primeira linha de c da esquerda para a direita, depois a segunda linha, e assim por diante). O 
procedimento também mantém a tabela b[1 ..m, 1... n] para ajudar a construr uma solução ótima. Intuitivamente, b[i, 
7] aponta para a entrada da tabela correspondente à solução ótima de subproblema escolhida ao se calcular cli, ;]. O 
procedimento retorna as tabelas b e c; c[m, n] contém o comprimento de uma LCS de Xe Y. 


Lcs-LENGTH (X,Y) 


1 m= X.comprimento 

2 n= Y.comprimento 

3 sejam b[1..m, 1..n] e c[0..m,0..n] tabelas novas 
4 fori=ltom 

5 c[i,0] = O 

6 forj=Oton 

z cl0,/]] = 0 

8 fori=ltom 

5 forj=1ton 


10 ifx,==y, 

11 cli]=cli-1,j-1]+1 
12 bli,j]=""º 

13 elseifcli— 1,j]>cli,j— 1] 
14 cli,jJ=cli— 1,7] 

15 bli,j]="7" 

16 else cli,7] = cli,j- 1] 

17 b[i,j] = "— 


18 retumc,b 


A Figura 15.8 mostra as tabelas produzidas por LCS-Lenorn nas sequências X = (4, B, C,B,D,4,B)e Y=(B, D, 
C, 4, B, 4). O tempo de execução do procedimento é Q(mn), já que cada entrada de tabela demora o tempo Q(1) 
para ser calculada. 


Etapa 4: Construção de uma LCS 


A tabela b retornada por LCS-LenorH nos habilita a construir rapidamente uma LCS de X = (x,, x,, ..., X) € Y= 
(Vp Y» «» Yn. Simplesmente começamos em b[m, n] e percorremos a tabela seguindo as setas. Sempre que 
encontramos uma “*” na entrada b[i, j], ela implica que x, = y, é um elemento da LCS que LCS-Lenom encontrou. Com 
esse método, encontramos os elementos da LCS em ordem inversa. O procedimento recursivo a seguir imprime uma 
LCS de Xe Yna ordem direta adequada. A invocação inicial é Prnt-LCS(b, X, X.comprimento, Ycomprimento). 


PrINT-LCS(b, X, i, j) 


ifi==00uj== 
return 

EE Dk, 1) === 
PrinT-LCS(b, X,i — 1,/— 1) 
print x, 

elseif b[1,7] == “1” 
PrinT-LCS(b, X,i — 1,1) 

else PRINT-LCS(b, X,1,] — 1) 
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Figura 15.8 As tabelas c e b calculadas por LCS-Lenorn para as sequências X=(4,B, C,B,D,A,B)e Y=(B,D,C,A, B,4). O quadrado 
na linha i e coluna; contémo valor de ci, je a seta adequada para o valor de bi, j. A entrada 4emc7, 6 — o canto inferior direito da 
tabela — é o comprimento de uma LCS (B, C, B, 4) de Xe Y. Para i,j> 0, a entrada ci,j depende apenas de x:=; e dos valores nas 
entradas ci - 1,j,ci,j- leci-1,j-1, que são calculados antes de ci,j. Para reconstruir os elementos de uma LCS, siga as setas bi,j 
desde o canto inferior direito; a sequência está sombreada. Cada “Né na sequência sombreada corresponde a uma entrada (destacada) 
para a qual x; = y; é membro de uma LCS. 


Para a tabela b na Figura 15.8, esse procedimento imprime BCBA. O procedimento demora o tempo O(m + n), já 
que decrementa no mínimo um de i e j em cada fase da recursão. 


Melhorando o código 


Depois de ter desenvolvido um algoritmo, você, muitas vezes, constatará que é possível melhorar o tempo ou o 
espaço que ele utiliza. Algumas mudanças podem simplificar o código e melhorar fatores constantes, porém, quanto ao 


mais, não produzem nenhuma melhora assintótica no desempenho. Outras podem resultar em economias assintóticas 
significativas de tempo e de espaço. 

Por exemplo, no algoritmo LCS podemos eliminar totalmente a tabela b. Cada entrada c[i, ;] depende apenas de 
três outras entradas na tabela c[i— 1,7; — 1], cli— 1,j] e cli,j — 1]. Dado o valor de cfi, ;], podemos determinar em 
tempo O(1) de qual desses três valores foi usado para calcular c[i, ;], sem inspecionar a tabela b. Assim, podemos 
reconstruir uma LCS em tempo O(m + n) usando um procedimento semelhante a Print-LCS. (O Exercício 15.4-2 pede 
que você dê o pseudocódigo.) Embora economizemos espaço Q(mn) por esse método, o requisito de espaço auxiliar 
para calcular uma LCS não diminui assintoticamente, já que, de qualquer modo, precisamos do espaço Q(mn) para a 
tabela c. 

Entretanto, podemos reduzir os requisitos de espaço assintótico para LCS-Lencrn, já que esse procedimento só 
precisa de duas linhas da tabela c por vez: a linha que está sendo calculada e a linha anterior. (De fato, como o Exercício 
15.4-4 pede que você mostre, podemos usar apenas um pouquinho mais que o espaço para uma linha de c para 
calcular o comprimento de uma LCS.) Esse aperfeiçoamento funciona se necessitamos apenas do comprimento de uma 
LCS; se >precisarmos reconstruir os elementos de uma LCS, a tabela menor não guardará informações suficientes para 
reconstituir nossas etapas no tempo O(m + n). 


Exercícios 
15.4-1 Determine uma LCS de (1,0,0,1,0,1,0,1)e(0,1,0,1,1,0,1,1,0). 


15.4-2 Dê o pseudocódigo para reconstruir uma LCS partindo da tabela c concluída e das sequências originais X = 
DX, 0, XD € Y=(V, Yo, -..» Y)) em tempo O(m + n), semusar a tabela b. 


15.4-3 Dê uma versão memoizada de LCS-Lenorm que seja executada no tempo O(mn). 


15.4-4 Mostre como calcular o comprimento de uma LCS usando apenas 2 - min(m, n) entradas na tabela c mais o 
espaço adicional O(1). Em seguida, mostre como fazer a mesma coisa usando min(m, n) entradas mais o 
espaço adicional O(1). 


15.4-5 Dê um algoritmo de tempo O(n,) para encontrar a subsequência monotonicamente crescente mais longa de 
uma sequência de n números. 


15.4-6 * Dê um algoritmo de tempo O(n lg n) para encontrar a subsequência mais longa monotonicamente crescente 
de uma sequência de n números. (Sugestão: Observe que o último elemento de uma subsequência candidata 
de comprimento i é no mínimo tão grande quanto o último elemento de uma subsequência candidata de 
comprimento i — 1. Mantenha as subsequências candidatas ligando-as por meio da sequência de entrada.) 


15.5 ARVORES DE BUSCA BINÁRIA ÓTIMAS 


Suponha que estejamos projetando um programa para traduzir texto do inglês para o francês. Para cada 
ocorrência de cada palavra inglesa no texto, precisamos procurar sua equivalente em francês. Um modo de executar 
essas operações de busca é construir uma árvore de busca binária com n palavras inglesas como chaves e suas 
equivalentes francesas como dados satélites. Como pesquisaremos a árvore para cada palavra individual no texto, 
queremos que o tempo total gasto na busca seja tão baixo quanto possível. Poderíamos assegurar um tempo de busca 
O(lg n) por ocorrência usando uma árvore vermelho-preto ou qualquer outra árvore de busca binária balanceada. 
Porém, as palavras aparecem com frequências diferentes, e uma palavra usada frequentemente como the pode aparecer 
longe da raiz, enquanto uma palavra raramente usada como machicolation apareceria perto da raiz. Tal organização 
reduziria a velocidade da tradução, já que o número de nós visitados durante a busca de uma chave em uma árvore de 


busca binária é igual a uma unidade mais a profundidade do nó que contém a chave. Queremos que palavras que 
ocorrem com frequência no texto sejam colocadas mais próximas à raiz.ó Além disso, algumas palavras no texto podem 
não ter nenhuma tradução para o francês” e, portanto, não apareceriam em nenhum lugar na árvore de busca binária. 
Como organizamos uma árvore de busca binária para minimizar o número de nós visitados em todas as buscas, 
considerando que sabemos com que frequência cada palavra ocorre? 

O que precisamos é conhecido como árvore de busca binária ótima. Formalmente, temos uma sequência K = 
(k 4, ko, ..., k,) de n chaves distintas em sequência ordenada (de modo que k, <k,<...<K,), e desejamos construir 
uma árvore de busca binária com essas chaves. Para cada chave k,, temos uma probabilidade p, de que uma busca seja 
para k,. Algumas buscas podem ser para valores que não estão em K, e então também temos n + 1 “chaves fictícias” 
do, d,, dy, ..., dn que representam valores que não estão em K. Em particular, d, representa todos os valores menores 
que k,, d, representa todos os valores maiores que k, e, para i= 1,2,...,n— 1, a chave fictícia d, representa todos os 
valores entre k, e k,+1. Para cada chave fictícia d,, temos uma probabilidade q, de que uma busca corresponda a d... A 
Figura 15.9 mostra duas árvores de busca binária para um conjunto n = 5 chaves. Cada chave k, é um nó interno e 
cada chave fictícia d, é uma folha. Toda busca é bem sucedida (quando encontra alguma chave k,) ou mal sucedida 
(quando encontra alguma chave fictícia d,) e, então, temos 


3>p, +54, =1., (15.10) 
i=1 


1=0 


(a) (b) 


i 0 1 2 E 1 5 


0,15 0,10 0,05 0,10 0,20 
q; 0,05 0,10 0,05 0,05 0,05 0,10 


Figura 15.9 Duas árvores de busca binária para um conjunto de n = 5 chaves comas seguintes probabilidades: (a) Uma árvore de busca 
binária com custo de busca esperado 2,80. (b) Uma árvore de busca binária com custo de busca esperado 2,75. Essa árvore é ótima. 


Como temos probabilidades de busca para cada chave e cada chave fictícia, podemos determinar o custo 
esperado de uma busca em uma árvore de busca binária dada T. Vamos supor que o custo real de uma busca seja igual 
ao número de nós examinados, isto é, a profundidade do nó encontrado pela busca em T mais 1. Então, o custo 
esperado de uma busca em T é 


Elcusto de busca em T|= D (profundidade (k )+1)-p, + > (profundidade (d D+ 1):q 


i=1 i=0 


=1+ » profundidade, (k )-p, + a profundidade (d )-q,, (15.11) 


i=0 


i 


onde profundidade, denota a profundidade de um nó na árvore T. A última igualdade decorre da equação (15.10). Na 
Figura 15.9(a), podemos calcular o custo esperado da busca por nó: 


nó profundidade probabilidade contribuição 
ki l 0,15 0,30 
k2 0 0,10 0,10 
k3 2Z 0,05 0,15 
ka l 0,10 0,20 
ks 2 0,20 0,60 
do 2 0,05 0,15 
di 2 0,10 0,30 
d» 3 0,05 0,20 
d3 3 0,05 0,20 
d4 3 0,05 0,20 
ds 3 0,10 0,40 
Total 2,80 


Para um dado conjunto de probabilidades, queremos construir uma árvore de busca binária cujo custo de busca 
esperado seja o menor de todos. Damos a essa árvore o nome de árvore de busca binária ótima. A Figura 15.9(b) 
mostra uma árvore de busca binária ótima para as probabilidades dadas na legenda da figura; seu custo esperado é 
2,75. Esse exemplo mostra que uma árvore de busca binária ótima não é necessariamente uma árvore cuja altura global 
seja a menor. Nem funciona necessariamente construir uma árvore de busca binária ótima sempre colocando a chave 
com maior probabilidade na raiz. Aqui, a chave k, tem a maior probabilidade de busca de qualquer chave, entretanto a 
raiz da árvore de busca binária ótima mostrada é k,. (O custo esperado mais baixo de qualquer árvore de busca binária 
com, na raiz é 2,85.) 

Como ocorre com a multiplicação de cadeias de matrizes, a verificação exaustiva de todas as possibilidades não 
produz um algoritmo eficiente. Podemos identificar os nós de qualquer árvore binária de n nós com as chaves k,, k,,..., 
k, para construir uma árvore de busca binária e depois adicionar as chaves fictícias como folhas. No Problema 12-4, 
vimos que o número de árvores binárias com n nós é (4n/n,,) e, portanto, em uma busca exaustiva teríamos de 
examinar um número exponencial de árvores de busca binária. Então, não é nenhuma surpresa que resolvamos esse 
problema com programação dinâmica. 


Etapa 1: A estrutura de uma árvore de busca binária ótima 


Para caracterizar a subestrutura ótima de árvores de busca binária ótima, começamos com uma observação sobre 
subárvores. Considere qualquer subárvore de uma árvore de busca binária. Ela deve conter chaves em uma faixa 
contígua k,,...X; para algum | <i<j<n. Além disso, uma subárvore que contém chaves k;,....k; também deve ter 
como folhas as chaves fictícias dil,..d); 
Agora podemos expressar a subestrutura ótima: se uma árvore de busca binária ótima T tem uma subárvore 7” que 


contém chaves k;,...k;, então essa subárvore 7” deve também ser ótima para o subproblema com chaves k,,...;k; e 


chaves fictícias dj-1,...,d;. O argumento habitual de recortar e colar é aplicável. Se houvesse uma subárvore 7” cujo 
custo esperado fosse mais baixo que o de 7”, poderíamos recortar 7” de T'e colar T” no seu lugar, resultando em uma 
árvore de busca binária de custo esperado mais baixo que 7, contradizendo assim a otimalidade de 7. 

Precisamos usar a subestrutura ótima para mostrar que podemos construir uma solução ótima para o problema 
partindo de soluções ótimas para subproblemas. Dadas as chaves k,,...,k,, uma dessas chaves, digamos k, (i<r <j), é 
a raiz de uma subárvore ótima que contém essas chaves. A subárvore esquerda da raiz k, contém as chaves k,,...,k,! (e 
chaves fictícias d;-1,...,d-1), e a subárvore direita contém as chaves RAE alo; (e chaves fictícias do: esd). Desde que 
examinemos todas as raízes candidatas k,, onde i << j, e determinemos todas as árvores de busca binária ótimas que 
contêm k,,....k-! e as que contêm EL ado é garantido que encontraremos uma árvore de busca binária ótima. 

Há um detalhe que vale a pena observar sobre subárvores “vazias”. Suponha que em uma subárvore com chaves 
iscas selecionemos k, como a raiz. Pelo argumento que acabamos de apresentar, a subárvore esquerda de k, contém 
as chaves k,,...,k;-1. Interpretamos que essa sequência não contém nenhuma chave. Contudo, lembre-se de que 
subárvores também contêm chaves fictícias. Adotamos a seguinte convenção: uma subárvore que contém chaves 
ks. ! não tem nenhuma chave real, mas contém a única chave fictícia d,-1. Simetricamente, se selecionarmos k; como 
a raiz, a subárvore direita de k; contém as chaves Kt,...h;s essa subárvore direita não contém nenhuma chave real, mas 
contém a chave fictícia d. 


Etapa 2: Uma solução recursiva 


Estamos prontos para definir o valor de uma solução ótima recursivamente. Escolhemos, como domínio de nosso 
subproblema, encontrar uma árvore de busca binária ótima que contenha as chaves Kiss ondei>1,j<nej>i- 
1. (Quando j = i — 1 não existe nenhuma chave real, temos apenas a chave fictícia d,-1.) Vamos definir eli, /] como o 
custo esperado de pesquisar uma árvore de busca binária ótima que contenha as chaves k,,....k,. Em última análise, 
desejamos calcular e[1, n). 

O caso fácil ocorre quando j = i — 1. Então, temos apenas a chave fictícia d,-1. O custo de busca esperado é eli, i 
= sig, 

Quando j > i, precisamos selecionar uma raiz k que esteja entre k,,....kj e fazer de uma árvore de busca binária 
ótima com chaves k,,....k,-! sua subárvore esquerda e de uma árvore de busca binária Ótima com chaves e DD sua 
subárvore direita. O que acontece com o custo de busca esperado de uma subárvore quando ela se torna uma 
subárvore de um nó? A profundidade de cada nó na subárvore aumenta de 1. Pela equação (15.11), o custo de busca 
esperado dessa subárvore aumenta de uma quantidade igual à soma de todas as probabilidades na subárvore. Para uma 
subárvore com chaves Kejpeeshjo vamos denotar essa soma de probabilidades como 


] J 
w(i,))= Vi + E» E (15.12) 
I=i 


I=i-1 


Assim, se k, é a raiz de uma subárvore ótima contendo chaves Kejseoshejo temos 


eli,jl=p, + (elir- 1] + w(i;r— 1D)+ (elr+ 1,] + w(r + 1,9). 


Observando que 


wli,)=w(ti,r—-D+p +wlr+ 1), 
reescrevemos eli, /] como 
eli,j] = wli,r-] + elr+ 1,7] + w(i, 1). (15.13) 


A equação recursiva (15.13) pressupõe que sabemos qual nó k usar como raiz. Escolhemos a raiz que dá o custo 
de busca esperado mais baixo, o que dá nossa formulação recursiva final: 


ar “EM sej=i-1, 

elij)=) . 0. e a CA e SA 

min(e[i,r— 1] +e[r+1,/]+w(i,))) sei< j. (15.14) 

Os valores eli, 7] dão os custos de busca esperados em árvores de busca binária ótimas. Para ajudar a controlar a 

estrutura de árvores de busca binária ótimas, definimos raiz[i, ;], para 1 <i<j <n, como o índice r para o qual k, é a 

raiz de uma árvore de busca binária ótima contendo chaves Keiko; Veremos como calcular os valores de raiz[i, ;], mas 
deixamos a construção da árvore de busca binária ótima com esses valores para o Exercício 15.5-1. 


Etapa 3: Cálculo do custo de busca esperado de uma árvore de busca binária ótima 


Até aqui, você deve ter notado algumas semelhanças entre as caracterizações que fizemos de árvores de busca 
binária ótimas e multiplicação de cadeias de matrizes. Para ambos os domínios de problemas, nossos subproblemas 
consistem em subfáixas de índices contíguos. Uma implementação recursiva direta da equação (15.14) seria tão 
ineficiente quanto um algoritmo recursivo direto de multiplicação de cadeias de matrizes. Em vez disso, armazenamos os 
valores e[i, ;] em uma tabela e[1 ..n + 1,0...n]. O primeiro índice precisa ir até n + 1 em vez de n porque, para ter 
uma subárvore contendo apenas a chave fictícia d,, precisaremos calcular e armazenar e[n + 1, n]. O segundo índice 
tem de começar de O porque, para ter uma subárvore contendo apenas a chave fictícia dp, precisaremos calcular e 
armazenar e[1, 0]. Usamos somente as entradas eli, ;] para as quais j > i — 1. Empregamos também uma tabela raiz[i, 
|] para registrar a raiz da subárvore que contém as chaves k,,...,k;. Essa tabela utiliza somente as entradas para as quais 
I<i<j<n. 

Precisaremos de uma outra tabela para eficiência. Em vez de calcular o valor de w(i, j) desde o início toda vez que 
estamos calculando eli, ;] — o que exigiria Q( — i) adições —, armazenamos esses valores em uma tabela w[1..n + 1, 
0..n]. Para o caso-base, calculamos w[i, i— 1]=q,! para 1 <i<»n. Para j > i, calculamos 


li, j] = wli,j — 1] + Pp, + q; (15.15) 


Assim, podemos calcular cada um dos Q(n,) valores de wi, ;] no tempo Q(1) . 
O pseudocódigo a seguir, toma como entradas as probabilidades p,....,p, € G9».---4, € O tamanho n, e retorna as 
tabelas e e raiz. 


OrprIMAL-BsT (p,q,n) 


1 sejam e(l.n + 1,0..n), w[l..n + 1,0..n), 
e raiz [1..n, 1..n] tabelas novas 
2 fori=lton+1 
3 Blat = fa 
4 wli,i— 1] =q,, 
5 forl=1Iton 
6 fori=lton-l+1 
7 
8 
9 


j=tpl=1 
eli, /] = oo 
wli,j]=wli,j-N+p,+q, 
10 forr=itoj 
11 t= der —1] +elr4-1+ vw) 
12 if t < e[i,7] 
13 eli,]=t 
14 raiz[i,1] =" 


15 return e, raiz 


Pela descrição anterior e pela semelhança com o procedimento Marrix-Cuarn-Orper da Seção 15.2, você 
constatará que a operação desse procedimento é razoavelmente direta. O laço for das linhas 2-4 inicializa os valores de 
eli, i—- 1] e wli, i — 1]. Então, o laço for das linhas 5-14 usa as recorrências (15.14) e (15.15) para calcular efi, j] e 
wlij]paral<i<j<n. Na primeira iteração, quando / = 1, o laço calcula eli, i] e wi, i] para i = 1, 2,...,n. A 
segunda iteração, com / = 2, calcula eli, i+ 1] e w[i, i + 1] para i= 1,2,...,n — 1, e assim por diante. O laço for mais 
interno, nas linhas 10-14, experimenta cada índice candidato r para determinar que chave k, usar como raiz de uma 
árvore de busca binária ótima contendo chaves k,,....k;. Esse laço for salva o valor atual do índice r em raiz[i, j] sempre 
que encontra uma chave melhor para usar como raiz. 

A Figura 15.10 mostra as tabelas e[i, 7], w[i, ;] e raiz[i, ;] calculadas pelo procedimento Orrmar-BST para a 
distribuição de chaves mostrada na Figura 15.9. Como no exemplo de multiplicação de cadeias de matrizes da Figura 
15.5, as tabelas sofreram uma rotação para colocar a diagonal principal na posição horizontal. Orrima-BST calcula as 
linhas de baixo para cima e da esquerda para a direita dentro de cada Inha. 

O procedimento Ornma.-BST demora o tempo Q(n,), exatamente como Marrix-CHain-Orer. É fácil verificar que o 
tempo de execução é O(n,), já que seus laços for estão aninhados em profundidade três e cada índice de laço exige no 
máximo n valores. Os índices de laços em OrmmaL-BST não têm exatamente os mesmos limites que os de Marrix-CHaIN- 
Orper, mas eles estão abrem no máximo 1 em todas as direções. Assim, exatamente como Marrix-CHAIN-ORDER, O 
procedimento OrrmaL-BST demora o tempo (n,). 


Exercícios 


15.5-1 Escreva o pseudocódigo para o procedimento Consrrcur-OrmimaL-BS T(raiz) que, dada a tabela raiz, dê como 
saída a estrutura de uma árvore de busca binária ótima. No exemplo da Figura 15.10, seu procedimento deve 
imprimir a estrutura 


| 


Figura 15.10 As tabelas ei,j, wi,j e raizi,j calculadas por ortiMAL-BST para a distribuição de chaves mostrada na Figura 15.9. As 
tabelas sofreram uma rotação para colocar as diagonais principais na posição horizontal. 


k,é a raiz 

k, é o filho à esquerda de k, 
d, é o filho à esquerda de k, 
d, é o filho à direita de k, 

ks é o filho à direita de k, 

k, é o filho à esquerda de ks, 
k+ é o filho à esquerda de k, 
d, é o filho à esquerda de k, 
d, é o filho à direita de k, 
d,é o filho à direita de k, 

d, é o filho à direita de k, 
correspondente à árvore de busca binária ótima mostrada na Figura 15.9(b). 


15.5-2 Determine o custo e a estrutura de uma árvore de busca binária ótima para um conjunto de n = 77 chaves com 
as seguintes probabilidades: 


15.5-3 


15.5-4 


/ 0 À 2 3 + o) 6 7 
0,06 0,08 0,02 0,10 0,12 0,14 
0,06 0,06 0,05 0,05 0,05 0,05 


0,04 
0,06 


Suponha que, em vez de manter a tabela w[i, ;], calculássemos o valor de w(i, 7) diretamente da equação 
(15.12) na linha 9 de Ormmar-BST e utilizássemos esse valor calculado na linha 11. Como essa mudança 
afetaria o tempo de execução assintótico de Orrma.-BST? 


*Knuth [214] mostrou que sempre existem raízes de subárvores ótimas tais que raiz[i, | — 1] < raiz[i, j] < 
raiz[i+ 1,7] para todo | <i<j <n. Use esse fato para modificar o procedimento Orrimar-BST de modo que 
ele seja executado no tempo Q(n,). 


Problemas 


15.1 


Caminho simples mais longo em um grafo acíclico dirigido 


Suponha que tenhamos um grafo acíclico dirigido G = (V, E) com pesos de arestas com valores reais e dois 
vértices distinguidos s e t. Descreva uma abordagem de programação dinâmica para determinar um caminho 
simples ponderado mais longo de s a t. Qual é a aparência do grafo de subproblema? Qual é a eficiência do 
seu algoritmo? 


(a) (b) 


Figura 15.11 Sete pontos no plano, mostrados sobre uma grade unitária. (a) O caminho fechado mais curto, com comprimento 
aproximado de 24,89. Esse caminho não é bitônico. (b) O caminho fechado bitônico mais curto para o mesmo conjunto de pontos. Seu 
comprimento é aproximadamente 25,58. 


15.2 


Subsequência palíndromo mais longa 


Um palíndromo é uma cadeia não vazia em algum alfabeto que é lida do mesmo modo da esquerda para a 
direita ou da direita para a esquerda. Exemplos de palíndromos são todas cadeias de comprimento 1, radar, 
asa, reter € oco. 


Dê um algoritmo eficiente para encontrar o palindromo mais longo que é uma subsequência de uma cadeia de 
entrada dada. Por exemplo, dada a entrada character nosso algoritmo retornaria carac. Qual é o tempo de 
execução do seu algoritmo? 


15.3 


15.4 


15.5 


Problema do caixeiro-viajante euclidiano bitônico: 


No problema do caixeiro-viajante euclidiano temos um conjunto de n pontos no plano e queremos 
determinar o caminho fechado mais curto que conecta todos os n pontos. A Figura 15.11 (a) mostra a solução 
para um problema de sete pontos. O problema geral é NP-difícil e, portanto, acredita-se que sua solução 
requeira mais que tempo polinomial (ver Capítulo 34). 


J. L. Bentley sugeriu que simplificássemos o problema restringindo nossa atenção a caminhos fechados 
bitônicos, isto é, caminhos fechados que começam no ponto da extrema esquerda, seguem estritamente da 
esquerda para a direita até o ponto da extrema direita e depois voltam estritamente da direita para a esquerda 
até o ponto de partida. A Figura 15.11(b) mostra o caminho fechado bitônico mais curto para os mesmos sete 
pontos. Nesse caso, é possível um algoritmo de tempo polinomial. 


Descreva um algoritmo de tempo O(n,) para determinar um caminho fechado bitônico ótimo. Você pode 
considerar que não existem dois pontos com a mesma coordenada x. (Sugestão: Desloque-se da esquerda 
para a direita, mantendo possibilidades ótimas para as duas partes do caminho fechado.) 


Como obter uma impressão nítida 


Considere o problema de obter, em uma impressora, uma impressão nítida de um parágrafo em fonte 
monoespaçada (todos os caracteres têm a mesma largura). O texto de entrada é uma sequência de n palavras 
de comprimentos /,, L,, ... |, medidos em caracteres. Queremos imprimir esse parágrafo nitidamente em uma 
série de linhas que contêm no máximo M caracteres cada uma. Nosso critério de “nitidez” é dado a seguir. Se 
determinada linha contém palavras de i até j, onde i < j, e deixamos exatamente um espaço entre as palavras, 


] / 

o número de caracteres de espaço extras no final da linha é M -j+i k=1 k, que deve ser não 
negativo para que as palavras caibam na linha. Desejamos minimizar a soma em todas as linhas, exceto a 
última, dos cubos dos números de caracteres de espaço extras nas extremidades das linhas. Dê um algoritmo 
de programação dinâmica para imprimir um parágrafo de n palavras nitidamente em uma impressora. Analise 
o tempo de execução e os requisitos de espaço do seu algoritmo. 


Distância de edição 


Para transformar uma cadeia de texto de origem x[1..m] na cadeia de texto que desejamos y[1..n], podemos 
executar várias operações de transformação. Nossa meta é, dados x e y, produzir uma série de 
transformações que mudam x para y. Usamos um arranjo z — considerado grande o suficiente para conter 
todos os caracteres de que precisará — para conter os resultados intermediários. Inicialmente, z está vazio e, 
no término, devemos ter z[;] = y[7] para j = 1, 2, ..., n. Mantemos índices atuais i em x e j emz, e as 
operações podem alterar z e esses índices. Inicialmente, i =; = 1. Temos de examinar cada caractere em x 
durante a transformação, o que significa que no fim da sequência de operações de transformação devemos ter 
i=m+1. 


Podemos escolher entre seis operações de transformação: 
Copiar um caractere de x para z fazendo z[;] = x[i] e incrementar i e j. Essa operação examina x [1]. 


Substituir um caractere de x por outro caractere c fazendo z[j] = c e incrementar i e j. Essa operação 
examina x[i]. 


Excluir um caractere de x incrementando i, mas deixando j inalterado. Essa operação examina x[i]. 


Inserir o caractere c em z definindo z[;] = c e incrementar j, mas deixar i inalterado. Essa operação não 
examina nenhum caractere de x. 


Transpor os dois caracteres seguintes, copiando-os de x para z mas na ordem oposta; para tal fazemos z[;] = 
x[i+ 1] e z[j + 1] = x[i], e fazemos i=i+2 ej =; + 2. Essa operação examina x[i] e x[i + 1]. 


Eliminar o restante de x fazendo i = m + 1. Essa operação examina todos os caracteres em x que ainda não 


foram examinados. Essa operação, se executada, deverá ser a última. 


Como exemplo, um modo de transformar a corrente de origem algorithm na corrente desejada altruístic é usar a 
sequência de operações a seguir, onde os caracteres sublinhados são x[i] e z[;] após a operação: 


eração X 
cadeias iniciais algorithm 
copiar algorithm 
copiar algorithm 
substituir por t algorithm 
excluir algorithm 
copiar algorithm 
inserir u algorithm 
inserir 1 algorithm 
inserir s algorithm 
transpor algorithm 
inserir c algorithm 
eliminar algorithm. 


Z 


ao 

al. 

alt. 

Gato 

altr . 

= ni o 
altrui . 
altruas . 
altruadta 
altrusstio 
ALT Ta 


Observe que há várias outras sequências de operações de transformação que convertem algorithm em altruistic. 

Cada uma das operações de transformação tem um custo associado. O custo de uma operação depende da 
aplicação específica, mas consideramos que o custo de cada operação é uma constante que conhecemos. Supomos 
também que os custos individuais das operações copiar e substitur são menores que os custos combinados das 
operações excluir e inserir, senão as operações de copiar e substituir não seriam usadas. O custo de uma dada 
sequência de operações de transformação é a soma dos custos das operações individuais na sequência. Para a 
sequência que estudamos neste exercício, o custo de transformar algorithm em altruistic é 

(3 * custo(copiar)) + custo(substituir) + custo(excluir) + (4 - custo(inserir)) + custo(girar) + custo(eliminar). 


a. 


Dadas duas sequências x 1..m e y1..n e um conjunto de custos de operação, a distância de edição de x 
para y é o custo da sequência menos dispendiosa de operações que transforma x em y. Descreva um 
aleoritmo de programação dinâmica que determine a distância de edição de x 1..m para y1..n e imprime 
uma sequência de operações ótima. Analise o tempo de execução e os requisitos de espaço de seu 


algoritmo. 


O problema da distância de edição generaliza o problema de alinhar duas sequências de DNA (veja, por 
exemplo, Setubal e Meidanis [310, Seção 3.27). Há vários métodos para medir a semelhança entre duas 
sequências de DNA por alinhamento. Um dos métodos para alinhar duas sequências x e y consiste em inserir 


espaços em posições arbitrárias nas duas sequências (inclusive em qualquer extremidade) de modo que as 
sequências resultantes x” e y” tenham o mesmo comprimento, mas não um espaço na mesma posição (isto é, 
para nenhuma posição ;, x"[;] e y'[7] são espaços). Então, atribuímos uma “pontuação” a cada posição. A 
posição j recebe uma pontuação da seguinte manera: 


* +Isex'[/]='[7] e nenhum deles é um espaço, 
* -Isex'j +); e nenhum deles é um espaço, 
* -2sex'; ou); é um espaço. 


A pontuação para o alinhamento é a soma das pontuações das posições individuais. Por exemplo, dadas as 
sequências x = GATCGGCAT e y = CAATGTGAATC, um alinhamento é 


6 ATCO GCAT 
CAAT GTGAATC 


PPA 


15.6 


15.7 


Um + sob uma posição indica uma pontuação +1 para aquela posição, um — indica a pontuação -1 e um * 
indica a pontuação -2: portanto, esse alinhamento tem uma pontuação totaliguala6 - 1-2 -1-4:2=-4, 


b. Explique como expressar o problema de determinar um alinhamento ótimo como um problema de 
distância de edição usando um subconjunto das operações de transformação copiar, substituir, excluir, 
inserir, girar e elimmar. 


Planejamento de uma festa da empresa 


O professor Stewart presta consultoria ao presidente de uma corporação que está planejando uma festa da 
empresa. A empresa tem uma estrutura hierárquica, isto é, as relações entre os supervisores formam uma 
árvore com raiz no presidente. O pessoal do escritório classificou cada funcionário segundo uma avaliação de 
sociabilidade que é um número real. Para tornar a festa divertida para todos os participantes, o presidente não 
quer que um funcionário e seu supervisor imediato participem. 


O professor Stewart recebe a árvore que descreve a estrutura da corporação usando a representação de filho 
à esquerda, irmão à direita descrita na Seção 10.4. Cada nó da árvore contém, além dos ponteiros, o nome 
de um funcionário e o posto que ele ocupa na escala de classificação de sociabilidade. Descreva um algoritmo 
para compor uma lista de convidados que maximize a soma das avaliações de sociabilidade dos convidados. 
Analise o tempo de execução do seu algoritmo. 


Algoritmo de Viterbi 


Podemos usar programação dinâmica em um grafo dirigido G = (V, E) para reconhecimento de voz. Cada 
aresta (u, v) & E é identificada por um som (u, v) de um conjunto finito X de sons. O grafo rotulado é um 
modelo formal de uma pessoa falando uma linguagem restrita. Cada caminho no grafo que parte de um vértice 
distinto v, & V corresponde a uma sequência possível de sons produzidos pelo modelo. Definimos o rótulo 
de um caminho dirigido como a concatenação dos rótulos das arestas nesse caminho. 


a. Descreva um algoritmo eficiente que, dado um grafo com arestas rotuladas G contendo um vértice 
distinto voe uma sequência s = (si, s2, ..., sx) de sons pertencentes ao conjunto X, retorne um caminho em 


15.8 


15.9 


G que começa em vo e tenha s como rótulo, se tal caminho existir. Caso contrário, o algoritmo deve 
retornar No-Sucn-Parm. Analise o tempo de execução de seu algoritmo. (Sugestão: Os conceitos do 
Capítulo 22 poderão ser úteis.) 


Agora, suponha que toda aresta (u, v) &€ E tenha uma probabilidade associada não negativa p(u, v) de 
percorrer a aresta (u, v) desde o vértice u e, assim, produzir o som correspondente. A soma das 
probabilidades das arestas que saem de qualquer vértice é igual a 1. A probabilidade de um caminho é 
definida como o produto das probabilidades de suas arestas. Podemos considerar a probabilidade de um 
caminho que começa em v, como a probabilidade de um “percurso aleatório” começando em v, seguir o 
caminho especificado, onde escolhemos aleatoriamente qual aresta que sai de um vértice u tomar de acordo 
com as probabilidades das arestas disponíveis que partem de u. 


b. Amplie sua resposta à parte (a), de modo que, se um caminho for retornado, ele é um caminho mais 
provável que começa em voe tem rótulo s. Analise o tempo de execução do seu algoritmo. 


Compressão de imagem por descostura (seam carving) 


Temos uma figura em cores que consiste em um arranjo mn A[1..m, 1..n] de pixels, onde cada pixel especifica 
uma tripla de intensidades de vermelho, verde e azul (RGB). Suponha que queiramos comprimir ligeiramente 
essa figura. Especificamente, queremos remover um pixel de cada uma das m linhas, de modo que a figura 
inteira fique um pixel mais estreita. Porém, para evitar distorção nos efeitos visuais, é necessário que os pixels 
removidos em duas linhas adjacentes estejam na mesma coluna ou em colunas adjacentes. Os pixels 
removidos formam uma “costura” da linha superior até a linha inferior. Nessa costura, os pixels sucessivos são 
adjacentes na vertical e na diagonal. 


a. Mostre que o número de tais costuras possíveis cresce no mínimo exponencialmente em m, considerando 
quen>1. 


b. Agora suponha que juntamente com cada pixel 4i, j, calculamos uma medida de distorção de valor real 
di, j, que indica qual seria o grau de distorção causado pela remoção do pixel Ai, j. Intuitivamente, 
quanto mais baixa a medida de distorção causada por um pixel, mais semelhante a seus vizinhos é esse 
pixel. Suponha ainda que definimos a medida de distorção de uma costura como a soma das medidas de 
distorção de seus pixels. 


Dê um algoritmo para encontrar uma costura que tenha a medida de distorção mais baixa. Qual seria a 
eficiência desse algoritmo? 


Quebra de cadeia 


Certa linguagem de processamento de cadeias permite que um programador quebre uma cadeia em dois 
pedaços. Como essa operação copia a cadeia, quebrar uma cadeia de n caracteres em dois pedaços tem um 
custo de n unidades de tempo. Suponha que um programador queira quebrar uma cadeia em muitos pedaços. 
A ordem em que as quebras ocorrem pode afetar a quantidade total de tempo gasto. Por exemplo, suponha 
que a programadora queira quebrar uma cadeia de 20 caracteres depois dos caracteres 2, 8 e 10 (numerando 
os caracteres em ordem ascendente a partir da extremidade esquerda e começando de 1). Se ela programar 
as quebras da esquerda para a direita, a primeira quebra custará 20 unidades de tempo, a segunda quebra 
custará 18 unidades de tempo (quebra da cadeia dos caracteres 3 a 20 no caractere 8), e a terceira quebra 
custará 12 unidades de tempo, totalizando 50 unidades de tempo. Entretanto, se ela programar as quebras da 
direita para a esquerda, a primeira quebra custará 20 unidades de tempo, a segunda quebra custará 10 
unidades de tempo, e a terceira quebra custará 8 unidades de tempo, totalizando 38 unidades de tempo. 
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Ainda em uma outra ordem, ela poderia programar a primeira quebra em 8 (custo 20), quebrar o pedaço à 
esquerda em 2 (custo 8) e, finalmente, o pedaço à direita em 10 (custo 12), o que dá um custo total de 40. 
Projete um algoritmo que, dados os números de posição dos caracteres após os quais ocorrerão as quebras, 
determine uma sequência de menor custo dessas quebras. Mais formalmente, dada uma cadeia S com n 
caracteres e um arranjo L[1..m] que contém os pontos de quebra, calcule o menor custo para uma sequência 
de quebras juntamente com uma sequência de quebras que atinja esse custo. 


Planejamento de uma estratégia de investimento 


Como você conhece bem algoritmos, consegue um emprego interessante na Acme Computer Company, além 
de um bônus contratual de $10.000. Você decide investir esse dinheiro com o objetivo de maximizar o retorno 
em 10 anos. Então, decide contratar a Amalgamated Investment Company para gerenciar os seus 
investimentos. Essa empresa exige que você observe as regras descritas a seguir. Fla oferece n investimentos 
diferentes, numerados de 1 a n. Em cada ano j, o investimento dá uma taxa de retorno de rj. Em outras 
palavras, se você mvestiu d dólares no investimento i no ano j, ao final do ano j terá dr; dólares. As taxas de 
retorno são garantidas, isto é, a empresa informa todas as taxas de retorno para os próximos 10 anos para 
cada investimento. Você decide o rumo de seus investimentos uma vez por ano. Ao fim de cada ano, você 
pode deixar o dinheiro ganho no ano anterior nos mesmos investimentos, ou pode transferir dinheiro para 
outros investimentos, seja por transferência entre investimentos existentes, ou seja por transferência para um 
novo investimento. Se você não movimenta o dinheiro entre dois anos consecutivos, você paga uma taxa de f, 
dólares, enquanto que se houver transferência, você paga uma taxa de f, dólares, onde f, > f.. 


a. O problema, como enunciado, permite que você aplique seu dinheiro em vários investimentos a cada ano. 
Prove que existe uma estratégia de investimento ótima que, a cada ano, investe todo o dinheiro em um 
único investimento. (Lembre-se de que uma estratégia de investimento ótima maximiza a quantia investida 
após 10 anos e não se preocupa com outros objetivos, como minimizar riscos.) 


b. Prove que o problema de planejar sua estratégia de investimentos ótima exibe subestrutura ótima. 


c. Projete um algoritmo que planeje sua estratégia de investimentos ótima. Qual é o tempo de execução 
desse algoritmo? 


d. Suponha que a Amalgamated Investments tenha imposto a seguinte restrição adicional: a qualquer 
instante, você não pode ter mais de $15.000 em qualquer dos investimentos. Mostre que o problema de 
maximizar sua receita ao final de 10 anos deixa de exibir subestrutura ótima. 


Planejamento de estoque 


A Ricky Dink Company fabrica máquinas para restaurar a superfície de rinques de patinação no gelo. A 
demanda por tais produtos varia de mês a mês e, por isso, a empresa precisa desenvolver uma estratégia de 
planejamento de produção dada a demanda flutuante, porém previsível. A empresa quer projetar um plano 
para os próximos n meses e sabe qual é a demanda d; para cada mês i, isto é, o número de máquinas que 


ZA 

venderá nesse mês. Seja D = i=1 1 a demanda total para os próximos n meses. A empresa 
mantém um quadro permanente de funcionários de tempo integral que fornecem a mão de obra para produzir 
até m máquinas por mês. Se ela precisar fabricar mais de m máquinas em determinado mês, pode contratar 
mão de obra temporária adicional, a um custo calculado de c dólares por máquina. Além disso, se ao final de 
um mês a empresa tiver em estoque qualquer número de máquinas não vendidas terá de pagar custos de 
estoque. O custo de estocar 7 máquinas é dado como uma função h(j) para j = 1, 2,..., D, onde h(j) > 0 


paral<j<Deh(j)<h(j+1I)paral<j<D-l. 


Dê um algoritmo para calcular um plano de produção para a empresa que minimize seus custos e, ao mesmo 
tempo, atenda à demanda. O tempo de execução deve ser polinomial emn e D. 


15.12 Contratação de jogadores de beisebol donos de seu passe 


Suponha que você seja o gerente geral de um time de beisebol da primeira divisão. No período entre 
temporadas, você precisa contratar para sua equipe alguns jogadores donos de seu próprio passe. O dono do 
time disponibilizou $X para gastar com esses jogadores e você pode gastar menos de 8X no total, mas será 
demitido se gastar mais de $X. Você está considerando N posições diferentes e, para cada posição, há P 
Jogadores disponíveis. Como não quer sobrecarregar seu plantel com muitos jogadores em alguma posição, 
você decide contratar no máximo um jogador reserva adicional para cada posição. (Se não contratar nenhum 
Jogador para uma determinada posição, você planeja continuar apenas com os jogadores de seu time titular 
para tal posição.) 


Para determinar o valor futuro de um jogador, você decide usar uma estatística sabermétrica? conhecida como 
VORP (value over replacement player — valor de um reserva). Um jogador que tenha um VORP mais alto 
é mais valioso que um jogador com VORP mais baixo. Contratar um jogador que tenha um VORP mais alto 
não é necessariamente mais caro que contratar um com VORP mais baixo porque há outros fatores que 
determinam o custo do contrato, além do valor do jogador. 


Para cada jogador reserva, você tem três informações: 
* a posição do jogador, 

* quanto custará contratar o jogador e 

* o VORP do jogador. 


Projete um algoritmo que maximize o VORP total dos jogadores que você contrata e, ao mesmo tempo, não 
gaste mais de 8X no total. Suponha que o contrato de cada jogador seja sempre um múltiplo de $100.000. 
Seu algoritmo deve dar como saída o VORP total dos jogadores contratados, o total de dinheiro gasto e uma 
lista dos jogadores contratados. Analise o tempo de execução e o requisito de espaço do seu algoritmo. 


NorTas DO CAPÍTULO 


R. Bellman começou o estudo sistemático de programação dinâmica em 1955. A palavra “programação”, tanto 
aqui quanto em programação linear, se refere ao uso de um método de solução tabular. Embora as técnicas de 
otimização que incorporam elementos de programação dinâmica fossem conhecidas antes, Bellman deu à área uma 
sólida base matemática [37]. 

Galil e Park [125] classificam algoritmos de programação dinâmica de acordo com o tamanho da tabela e o 
número de outras entradas de tabela das quais cada entrada depende. Eles denominam um algoritmo de programação 
dinâmica tD/eD se o tamanho de sua tabela for O(n,) e cada entrada depender de outras O(n,) entradas. Por exemplo, 
o algoritmo de multiplicação de cadeia de matrizes na Seção 15.2 seria 2D/1D, e o algoritmo da subsequência comum 
mais longa na Seção 15.4 seria 2D/0D. 

Hu e Shing [182, 183] apresentam um algoritmo de tempo O(n lg n) para o problema de multiplicação de cadeias 
de matrizes. 


O algoritmo de tempo O(mn) para o problema da subsequência comum mais longa parece ser um algoritmo 
folclórico. Knuth [70] levantou a questão da existência ou não de algoritmos subquadráticos para o problema da LCS. 
Masek e Paterson [244] responderam afirmativamente a essa pergunta, dando um algoritmo que é executado no tempo 
O(mn/lg n), onde n < m e as sequências são extraídas de um conjunto de tamanho limitado. Para o caso especial no 
qual nenhum elemento aparece mais de uma vez em uma sequência de entrada, Szymanski [326] mostra como resolver 
o problema no tempo O((n + mle(n + m)). Muitos desses resultados se estendem ao problema de calcular distâncias 
de edição de cadeias (Problema 15-5). 

Um artigo anterior sobre codificações binárias de comprimento variável apresentado por Gilbert e Moore [133] 
teve aplicações na construção de árvores de busca binária ótimas para o caso no qual todas as probabilidades p, sejam 
O; esse artigo contém um algoritmo de tempo O(n,). Aho, Hopcroft e Ullman [5] apresentam o algoritmo da Seção 
15.5. O Exercício 15.5-4 se deve a Knuth [212]. Hu e Tucker [184] criaram um algoritmo para o caso no qual todas as 
probabilidades p, sejam O e utiliza o tempo O(n,) e o espaço O(n); mais tarde, Knuth [211] reduziu o tempo para O(n 
lg n). 

O Problema 15-8 se deve a Avidan e Shamrr [27], que apresentaram na Web um maravilhoso vídeo que ilustra 
essa técnica de compressão de imagem. 


1 Se exigissemos que as peças fossem cortadas em ordem não decrescente de tamanho, haveria um número menor de modos a 
considerar. Para n = 4, consideraríamos somente cinco desses modos: partes (a), (b), (c), (e) e (h) na Figura 15.2. O número de modos é 
denominado função partição; é aproximadamente igual a em2n3 / 4n3. Essa quantidade é menor que 2»+1, porém ainda muito maior do que 
qualquer polinômio em. Todavia, não prosseguiremos nessa linha de raciocínio. 

2Isso não é umerro de ortografia. A palavra é realmente memoização, e não memorização. Memoização vem de memo, já que a técnica 
consiste em gravar um valor de modo que possamos consultá-lo mais tarde. 

3 Usamos o termo “não ponderado” para distinguir esse problema do problema de encontrar caminhos mais curtos com arestas 
ponderadas, que veremos nos Capítulos 24 e 25. Podemos usar a técnica da busca em largura apresentada no Capítulo 22 para resolver o 
problema não ponderado. 

«Pode parecer estranho que programação dinâmica dependa de subproblemas que são ao mesmo tempo independentes e sobrepostos. 
Embora possam parecer contraditórios, esses requisitos descrevem duas noções diferentes, em vez de dois pontos no mesmo eixo. Dois 
subproblemas do mesmo subproblema são independentes se não compartilharem recursos. Dois subproblemas são sobrepostos se 
realmente forem o mesmo subproblema que ocorre como um subproblema de problemas diferentes. 

s Essa abordagem pressupõe que conhecemos o conjunto de todos os parâmetros de subproblemas possíveis e que estabelecemos a 
relação entre posições de tabela e subproblemas. Uma outra abordagem, mais geral, é memoizar usando hashing com os parâmetros do 
subproblema como chave. 

sSe o assunto do texto fosse arquitetura de castelos, talvez quiséssemos que machicolation aparecesse perto da raiz. 

7Sim, machicolation tem uma contraparte em francês: máchicoulis. 

s Embora haja nove posições em um time de beisebol, N não é necessariamente igual a 9 porque o modo como alguns gerentes gerais 
pensam sobre posições é peculiar Por exemplo, um gerente geral poderia considerar que há duas “posições” distintas para 
arremessadores (pitchers), isto é, os arremessadores destros e os arremessadores canhotos, além do primeiro arremessador da partida, 
dos arremessadores de longo prazo, que podem arremessar por vários tumos, e dos de curto prazo, que normalmente arremessam no 
máximo um turno. 

9 Sabermétrica é a aplicação de análise estatística a registros de dados de jogos de beisebol. A sabermétrica dá vários modos para 
comparar valores relativos de jogadores individuais. 


] 6 ÁLGORITMOS GULOSOS 


Algoritmos para problemas de otimização, normalmente passam por uma sequência de etapas e cada etapa tem um 
conjunto de escolhas. Para muitos problemas de otimização é um exagero utilizar programação dinâmica para 
determinar as melhores escolhas: algoritmos mais simples e mais eficientes servirão. Um algoritmo guloso sempre faz a 
escolha que parece ser a melhor no momento em questão. Isto é, faz uma escolha localmente ótima, na esperança de 
que essa escolha leve a uma solução globalmente ótima. Este capítulo explora problemas de otimização para os quais os 
algoritmos gulosos dão soluções ótimas. Antes de ler este capítulo, você deve ler sobre programação dinâmica no 
Capítulo 15, em particular a Seção 15.3. 

Algoritmos gulosos nem sempre produzem soluções ótimas, mas as produzem para muitos problemas. Primeiro, 
examinaremos na Seção 16.1 um problema simples, mas não trivial: o problema da seleção de atividades, para o qual 
um algoritmo guloso calcula eficientemente uma solução. Chegaremos ao algoritmo guloso, considerando primeiro uma 
abordagem de programação dinâmica e depois mostrando que sempre podemos fazer escolhas gulosas para chegar a 
uma solução ótima. A Seção 16.2 revê os elementos básicos da abordagem gulosa, dando uma abordagem direta para 
provar a correção de algoritmos gulosos. A Seção 16.3 apresenta uma aplicação importante das técnicas gulosas: o 
projeto de códigos de compressão de dados (Huffman). Na Seção 16.4, investigamos um pouco da teoria subjacente 
às estruturas combinatórias denominadas “matroides”, para as quais um algoritmo guloso sempre produz uma solução 
ótima. Finalmente, a Seção 16.5 aplica matroides para resolver um problema de programação de tarefas de tempo 
unitário com prazos finais e multas. 

O método guloso é bastante poderoso e funciona bem para uma ampla faixa de problemas. Capítulos posteriores 
apresentarão muitos algoritmos que podem ser vistos como aplicações do método guloso, entre eles os algoritmos de 
árvore geradora mínima (Capítulo 23), o algoritmo de Dijkstra para caminhos mais curtos que partem de uma origem 
única (Capítulo 24) e a heurística gulosa de cobertura de conjuntos de Chvátal (Capítulo 35). Os algoritmos de árvores 
geradoras mínimas são um exemplo clássico do método guloso. Embora este capítulo e o Capítulo 23 possam ser lidos 
independentemente um do outro, aconselhamos que você os leia juntos. 


16.1 Um proBLEMA DE SELEÇÃO DE ATIVIDADES 


Nosso primeiro exemplo é o problema de programar várias atividades concorrentes que requerem o uso exclusivo 
de um recurso comum, com o objetivo de selecionar um conjunto de tamanho máximo de atividades mutuamente 
compatíveis. Suponha que tenhamos um conjunto S = fa,, a,, ..., a, de n atividades propostas que desejam usar um 
recurso (por exemplo, uma sala de conferências) que só pode ser utilizado por uma única atividade por vez. Cada 
atividade a, tem um tempo de início s, e um tempo de término f.,, onde O<s,<f, < o. Se selecionada, a atividade a, 
ocorre durante o intervalo de tempo meio aberto [s;, f;). As atividades a, e a; são compatíveis se os mtervalos [5,, f)) e 
Ls, f)) não se sobrepõem. Isto é, a; e a; são compatíveis se s, > f; ou s; > fj). No problema de seleção de atividades, 
queremos selecionar um subconjunto de tamanho máximo de atividades mutuamente compatíveis. Supomos que as 
atividades estão organizadas em ordem monotonicamente crescente de tempo de término: 


ERES ART AA Ae (16.1) 


(Veremos mais tarde como isso é vantajoso.) Por exemplo, considere o seguinte conjunto S de atividades: 


Para este exemplo, o subconjunto (a,, aç, 4,,) consiste em atividades mutuamente compatíveis. Porém, não é um 
subconjunto máximo, já que o subconjunto (a,, a,, a, a,,y é maior. De fato, a,, a,, as, à,,) é um dos subconjuntos 
maiores de atividades mutuamente compatíveis; um outro subconjunto maior é (a,, a,, Ay, A+. 

Resolveremos esse problema em várias etapas. Começamos examinando uma solução de programação dinâmica 
na qual consideraremos várias escolhas para determinar quais subproblemas usar em uma solução ótima. Então, 
observaremos que precisamos considerar somente uma escolha — a escolha gulosa — e que, quando optamos pela 
escolha gulosa, restará apenas um subproblema. Com base nessas observações, desenvolveremos um algoritmo guloso 
recursivo para resolver o problema da programação de atividades. Concluiremos o processo de desenvolver uma 
solução gulosa, convertendo o algoritmo recursivo em um algoritmo iterativo. Embora as etapas que percorreremos 
nesta seção sejam ligeiramente mais complicadas do que é comum no desenvolvimento de um algoritmo guloso, elas 
ilustram a relação entre algoritmos gulosos e programação dinâmica. 


A subestrutura ótima do problema de seleção de atividades 


É facil verificar que o problema de seleção de atividades exibe subestrutura ótima. Vamos denotar por S; O 
conjunto de atividades que começam após o término da atividade aí e terminam antes do início da atividade a,. Suponha 
que queremos determinar um conjunto máximo de atividades mutuamente compatíveis em S;,, e suponha ainda mais que 
tal subconjunto máximo é 4, que inclui alguma atividade a,. Incluindo a* em uma solução ótima, ficamos com dois 
subproblemas em mãos: determinar atividades mutuamente compatíveis no conjunto S,, (atividades que começam após 
o término da atividade ai e terminam antes do início da atividade a%) e determmar atividades mutuamente compatíveis no 
conjunto Sk; (atividades que começam após o térmmo da atividade a* e terminam antes do início da atividade a). Sejam 
AA; NSy e Ag =A; N Sy de modo que 4, contém as atividades em Ai que terminam antes do início de at e Ab 
contém as atividades em Ai que começam após o término de at. Assim, temos 4, = 4, U ta) U A, e, portanto, o 
conjunto de tamanho máximo Ai de atividades mutuamente compatíveis em Si consiste em |4,| = |4d + IAgl+1 
atividades. 

O argumento usual de recortar e colar mostra que a solução ótima Ai deve incluir também soluções ótimas para os 
dois subproblemas para Sit e S%. Se pudéssemos determinar um conjunto A ',; de atividades mutuamente compatíveis 
em St onde |A',| > |A 4j|, poderiamos usar A“, , m vez de A%, em uma solução para os subproblemas para Só. 
Poderíamos ter construído um conjunto de |A, | + |A | + 1 > |A| + |Agh 1 =|A,| atividades mutuamente compatíveis, 
o que contradiz a suposição de que Ai seja uma solução ótima. Um argumento simétrico se aplica às atividades em Sit. 

Esse modo de caracterizar subestrutura ótima sugere que poderíamos resolver o problema de seleção de atividades 
por programação dinâmica. Se denotarmos o tamanho de uma solução ótima para o conjunto 5S,, por cli, j] teremos a 
recorrência 


cli,9]= cli,k]+ clk,jl+1. 


É claro que, se não soubermos que uma solução ótima para o conjunto Si inclui a atividade a, teremos de examinar 
todas as atividades em Si; para determinar qual delas escolher, de modo que 


0 ses = 


di /= Imax (eli + clk,jJ+1) seS,=0 figa) 


Então, poderemos desenvolver um algoritmo recursivo e memoizá-lo, ou trabalhar de baixo para cima e preencher 
entradas de tabela durante o processo. Porém, estaríamos ignorando uma outra característica importante do problema 
de seleção de atividades que podemos usar e que seria muito vantajoso. 


Fazendo a escolha gulosa 


E se pudéssemos escolher uma atividade para acrescentar à nossa solução ótima sem ter de resolver primeiro 
todos os subproblemas? Isso nos pouparia de ter de considerar todas as escolhas inerentes à recorrência (16.2). Na 
verdade, no caso do problema de seleção de atividades precisamos considerar somente uma escolha: a escolha gulosa. 

O que quer dizer escolha gulosa para o problema de seleção de atividades? A intuição sugere que deveríamos 
escolher uma atividade que deixa o recurso disponível para o maior número possível de outras atividades. Agora, entre 
as atividades que acabamos escolhendo, uma deve ser a primeira a terminar. Portanto, nossa intuição nos diz para 
escolher a atividade em S que tenha o tempo de término mais cedo, já que isso deixaria o recurso disponível para o 
maior número possível de atividades que ocorram depois dessa. (Se mais de uma atividade em S tiver o mesmo tempo 
de término mais cedo, poderemos escolher qualquer uma delas.) Em outras palavras, visto que as atividades são 
ordenadas em ordem monotônica crescente por tempo de término, a escolha gulosa é a atividade a,. Escolher a 
primeira atividade a terminar não é o único modo de fazer uma escolha gulosa para esse problema; o Exercício 16.1-3 
pede que você explore outras possibilidades. 

Se fizermos a escolha gulosa, restará somente um subproblema para resolver: determinar atividades que começam 
após o término de a,. Por que não temos de considerar atividades que terminam antes de a! começar? Temos que s, < 
f, ef, é o tempo mais cedo de término de qualquer atividade; portanto, nenhuma atividade pode ter um tempo de 
término menor ou igual a s,. Assim, todas as atividades que são compatíveis com a atividade a, devem começar depois 
que a! terminar. 

Além do mais, já estabelecemos que o problema de seleção de atividades exibe subestrutura ótima. Seja S, = (a, 
E S:s,>f o conjunto de atividades que começam após o término de a*. Se fizermos a escolha gulosa da atividade a 
» S permanecerá como o único problema a resolver.! A subestrutura ótima nos diz que, se a, estiver na solução ótima, 
uma solução ótima para o problema original consistirá na atividade a, e todas as atividades em uma solução ótima para 
o subproblema 5. 

Resta uma grande pergunta: nossa intuição está correta? A escolha gulosa — na qual escolhemos a primeira 
atividade a terminar — é sempre parte de alguma solução ótima? O teorema que apresentamos a seguir, prova que é. 


Teorema 16.1 


Considere um subproblema qualquer não vazio S,, e seja a, uma atividade em S, com o tempo de término mais cedo. 
Então, a, estará incluída em algum subconjunto de tamanho máximo de atividades mutuamente compatíveis de S,. 


Prova Seja A, um subconjunto de tamanho máximo de atividades mutuamente compatíveis em $,, e seja a, a atividade 
em 4, que tem o tempo de término mais cedo. Se a, = a,,, terminamos aqui, visto que já mostramos que a, está em 
algum subconjunto de tamanho máximo de atividades mutuamente compatíveis de S,. Se a;f am, considere o conjunto 
A =A,— ay U ta), que é A, substituindo a, por a,,. As atividades em 4,” são disjuntas, o que decorre porque as 
atividades em 4, são disjuntas, a, é a primeira atividade a terminar em 4, ef, <J, . Visto que |4,'| = |A,|, concluímos 
que 4,” é um subconjunto de tamanho máximo de atividades mutuamente compatíveis de 8, e ele inclui a. 


Assim, vemos que, ainda que pudéssemos resolver o problema da seleção de atividades com programação dinâmica, 
não precisamos fazê-lo. (Ademais, ainda não verificamos se o problema de seleção de atividades tem subproblemas 
sobrepostos.) 

Em vez disso, podemos escolher repetidamente a atividade que termina primeiro, manter somente as atividades 
compatíveis com essa atividade e repetir o processo até não restar nenhuma atividade. Além do mais, como sempre 
escolhemos a atividade que tem o tempo de término mais cedo, os tempos de término das atividades que escolhermos 
deve crescer estritamente. Podemos considerar cada atividade apenas uma vez no total, em ordem monotonicamente 
crescente de tempos de término. 

Um algoritmo para resolver o problema de seleção de atividades não precisa funcionar de baixo para cima, como 
um algoritmo de programação dinâmica baseado em tabela. Em vez disso, pode trabalhar de cima para baixo 
escolhendo uma atividade para colocar na solução ótima e resolvendo o problema de escolher atividades entre as que 
são compatíveis com as já escolhidas. Algoritmos gulosos, normalmente têm o seguinte projeto de cima para baixo: faça 
um escolha e resolva um subproblema, em vez da técnica de baixo para cima, que resolve subproblemas antes de fazer 
uma escolha. 


Um algoritmo guloso recursivo 


Agora, que já vimos como evitar a abordagem da programação dinâmica e usar um algoritmo guloso de cima para 
baixo no lugar dela, podemos escrever um procedimento recursivo direto para resolver o problema da seleção de 
atividades. O procedimento Recursive-Acrivrry-SeLECTOR toma OS tempos de início e término das atividades, representados 
como arranjos s e f2 0 índice k que define o subproblema 5, que ele deve resolver e o tamanho n do problema original, 
e retorna um conjunto de tamanho máximo de atividades mutuamente compatíveis em S,. Consideramos que as n 
atividades de entrada já estão organizadas em ordem monotonicamente crescente de tempos de término de acordo com 
a equação (16.1). Se não, podemos ordená-las nessa ordem no tempo O(n lg n), rompendo vínculos arbitrariamente. 
Para começar, acrescentamos a atividade fictícia a, com fy = 0, de modo que o subproblema S, é o conjunto inteiro de 
atividades S. A chamada inicial, que resolve o problema inteiro, é Recursive-Acriviry-SeLecror.(s, f; O, 11). 


RECURSIVE-ACTIVITY-SELECTOR (Ss, f, k, n) 


1 m=k+1 

2 whilem <nes[m]<f[k]// encontrar em Sk a primeira atividade que termina 
3 m=m+1 

4 ifm<n 

5 


return (a, ) U RECURSIVE-ACTIVITY-SELECTOR. (s, f,m,n) 
6 elsereturn 


A Figura 16.1 mostra como o algoritmo funciona. Em determinada chamada recursiva Recursive-Acrivrry-SELECTOR(S, 
f, k, n), O laço while das linhas 2-3 procura em S, a primeira atividade que termina. O laço examina a + 1, a, +2,.., 
a,, até encontrar a primeira atividade a, que é compatível com a, ; tal atividade temss, > f,. Se o laço terminar porque 
encontrou tal atividade, a linha 5 retorna a união de fa, + com o subconjunto de tamanho máximo de S, retornado pela 
chamada recursiva Recursive-Acrivrry-SeLECTOR (8, f; m, n). Alternativamente, o laço pode terminar porque m > n, caso 
em que já examinamos todas as atividades em S, e não encontramos uma que seja compatível com a, . Nesse caso, S, = 
0/ e, portanto, o procedimento devolve 2 na linha 6. 

Considerando que as atividades já foram ordenadas por tempos de término, o tempo de execução da chamada 
Recursive-Acrivrry-SeLectOR (8, f; O, n) é O(n) o que podemos verificar da maneira descrita a seguir. Em todas as 
chamadas recursivas, cada atividade é examinada exatamente uma vez no teste do laço while da linha 2. Em particular, 
a atividade a, é examinada na última chamada feita na qual k < i. 


Um algoritmo guloso iterativo 


É fácil converter nosso procedimento recursivo em um iterativo. O procedimento Recursive-Acrviry-SELECTOR É quase 
“recursivo de cauda” (veja o Problema 7-4): ele termina com uma chamada recursiva a si mesmo seguida por uma 
operação de união. Em geral, transformar um procedimento recursivo de cauda em uma forma iterativa é uma tarefa 
direta; de fato, alguns compiladores para certas linguagens de programação executam essa tarefa automaticamente. 
Como está escrito, Recursive-Acriviry-SeLecror funciona para subproblemas S, , isto é, subproblemas que consistem nas 
últimas atividades a terminar. 

O procedimento Grezny-Acrivrry-SeLECTOR É UMa versão iterativa do procedimento Recursive-Acrivrry-SeLecror. Ele 
também considera que as atividades de entrada estão organizadas em ordem monotonicamente crescente de tempos de 
término. O procedimento reúne atividades selecionadas em um conjunto 4 e retorna esse conjunto quando termina. 


GREEDY-ACTIVITY-SELECTOR(S, f) 
1 n=s.comprimento 
2 A=ta) 

8 k=l 

4 form=2ton 

5 if s[m] > fIk] 

6 A=AUla) 
Z 

8 


m 


k=m 
return 4 


O procedimento finciona da maneira descrita a seguir. A variável k indexa a adição mais recente a 4, 
correspondente à atividade a, na versão recursiva. Visto que consideramos as atividades em ordem monotonicamente 
crescente de tempos de término, f, é sempre o tempo de término máximo de qualquer atividade em 4. Isto é, 


f.=max(f :a € A). (16.3) 


As linhas 2-3 selecionam a atividade a, inicializam 4 para conter apenas essa atividade e inicializam k para indexar essa 
atividade. O laço for das linhas 4-7 encontra a atividade que termina mais cedo em S,. O laço considera cada atividade 
a por vez e acrescenta a, a 4 se ela for compatível com todas as atividades selecionadas anteriormente; tal atividade é 
a que termina mais cedo S,. Para ver se a atividade a, é compatível com cada atividade presente em 4 no momento em 
questão, basta utilizar a equação (16.3) para verificar (na linha 5) se seu tempo de início s, não é anterior ao tempo de 
término f, da atividade mais recentemente adicionada a 4. Se a atividade a,, é compatível, as linhas 6-7 adicionam a 
atividade a, a 4 e atribuem k comm. O conjunto 4 retornado pela chamada GrezDy-Acriviry-SeLecTOR(S, f) É exatamente 
o conjunto retornado pela chamada Recursive-A crivrry-SeLecror(s, f; O, 11). 
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Figura 16.1 O funcionamento de RecuRsive-Acrivrry-seLecTOR para as 11 atividades dadas anteriormente. As atividades consideradas em 
cada chamada recursiva aparecem entre linhas horizontais. A atividade fictícia a, termina no tempo O e a chamada inicial, RecuRsive- 
Acrivrry-seLecrOR(s, f 0, 11) seleciona a atividade a, . Em cada chamada recursiva, as atividades que já foram selecionadas estão 
sombreadas, e a atividade mostrada em branco está sendo considerada. Se o tempo de início de uma atividade ocorre antes do tempo de 
término da atividade mais recentemente adicionada (a seta entre elas aponta para a esquerda), ela é rejeitada. Caso contrário (a seta 
aponta diretamente para cima ou para a direita), ela é selecionada. A última chamada recursiva, RecuRsive-Acriviry-seLecrOR(s, f; 11, 11), 
devolve 0/. O conjunto resultante de atividades selecionadas é (a, ,a,, ag, +. 


Como a versão recursiva, o procedimento Grezpy-Acrivrry-SeLECTOR programa um conjunto de n atividades no 
tempo O(n), considerando que as atividades já estavam ordenadas inicialmente por seus tempos de término. 


Exercícios 


16.1-1 Dê um algoritmo de programação dinâmica para o problema de seleção de atividades, baseado na recorrência 
(16.2). Seu algoritmo deve calcular os tamanhos c[i, ;] como definidos anteriormente e também produzir o 
subconjunto de tamanho máximo de atividades mutuamente compatíveis. Suponha que as entradas estão 
ordenadas como na equação (16.1). Compare o tempo de execução da sua solução com o tempo de 


16.1-2 


16.1-3 


16.1-4 


16.1-5 


execução de GreEDY-AcnIvITY-SELECTOR. 


Suponha que, em vez de sempre selecionar a primeira atividade a terminar, selecionemos a última atividade a 
começar que seja compatível com todas as atividades selecionadas anteriormente. Descreva como essa 
abordagem é um algoritmo guloso e prove que ela produz uma solução ótima. 


Não é qualquer abordagem gulosa para o problema de seleção de atividades que produz um conjunto de 
tamanho máximo de atividades mutuamente compatíveis. Dê um exemplo para mostrar que a abordagem de 
selecionar a atividade de menor duração entre aquelas que são compatíveis com atividades selecionadas 
anteriormente não funciona. Faça o mesmo para a abordagem de sempre selecionar a atividade que se 
sobrepõe ao menor número de outras atividades e para a abordagem de sempre selecionar a atividade 
restante compatível com o tempo de início mais cedo. 


Suponha que temos um conjunto de atividades para programar entre um grande número de salas de 
conferência. Desejamos programar todas as atividades usando o menor número possível de salas de 
conferências. Dê um algoritmo guloso eficiente para determinar qual atividade deve usar cada sala de 
conferências. 


(Este problema também é conhecido como problema de colorir grafos de intervalos. Podemos criar um 
grafo de intervalos cujos vértices são as atividades dadas e cujas arestas conectam atividades incompatíveis. 
O menor número de cores necessárias para colorir cada vértice de modo que dois vértices adjacentes nunca 
tenham a mesma cor corresponde a encontrar o menor número de salas de conferências necessárias para 
programar todas as atividades dadas.) 


Considere uma modificação para o problema de seleção de atividades no qual, além de um tempo de início e 
fim, cada atividade a, tem um valor v,. O objetivo não é mais maximizar o número de atividades programadas, 
mas maximizar o valor total das atividades programadas. Isto é, queremos escolher um conjunto 4 de 
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atividades compatíveis tal que 
esse problema. 


seja maximizado. Dê um algoritmo de tempo polinomial para 


16.2 FiLEMENTOS DA ESTRATÉGIA GULOSA 


Um algoritmo guloso obtém uma solução ótima para um problema fazendo uma sequência de escolhas. Para cada 
ponto de decisão, o algoritmo escolhe a opção que parece melhor no momento. Essa estratégia heurística nem sempre 
produz uma solução ótima, mas, como vimos no problema de seleção de atividades, algumas vezes, funciona. Esta 
seção discute algumas propriedades gerais de métodos gulosos. 

O processo que seguimos na Seção 16.1 para desenvolver um algoritmo guloso foi um pouco mais complicado que 
o normal. Seguimos estas etapas: 


1. Determinar a subestrutura ótima do problema. 
2. Desenvolver uma solução recursiva. (Para o problema de seleção de atividades, formulamos a recorrência (16.2), 
mas evitamos desenvolver um algoritmo recursivo baseado nessa recorrência.) 


Ny SN ca aa 


Provar que, se fizermos a escolha gulosa, restará somente um subproblema. 

Provar que, é sempre seguro fazer a escolha gulosa. (As etapas 3 e 4 podem ocorrer em qualquer ordem.) 
Desenvolver um algoritmo recursivo que implemente a estratégia gulosa. 

Converter o algoritmo recursivo em um algoritmo iterativo. 


Seguindo essas etapas, vimos bem detalhadamente os fundamentos da programação dinâmica de um algoritmo 
guloso. Por exemplo, no problema da seleção de atividades, primeiro definimos os subproblemas S;, no qual i e j 
variavam. Então, constatamos que, se sempre fizéssemos a escolha gulosa, poderíamos restringir os subproblemas à 
forma S,. 

Alternativamente, poderíamos ter conformado nossa subestrutura ótima tendo em mente uma escolha gulosa, de 
modo que a escolha deixasse apenas um problema para resolver. No problema de seleção de atividades, poderíamos 
ter começado descartando o segundo índice e definindo subproblemas da forma S,. Então, poderíamos ter provado que 
uma escolha gulosa (a primeira atividade a, a terminar em S,), combinada com uma solução ótima para o conjunto 
restante S, de atividades compatíveis, produz uma solução ótima para S,. De modo mais geral, projetamos algoritmos 
gulosos de acordo com a seguinte sequência de etapas: 


1. Expressar o problema de otimização como um problema no qual fazemos uma escolha e ficamos com um único 
subproblema para resolver. 

2. Provar que sempre existe uma solução ótima para o problema original que usa a escolha gulosa, de modo que a 
escolha gulosa é sempre segura. 

3. Demonstrar subestrutura ótima mostrando que, tendo feito a escolha gulosa, o que resta é um subproblema com a 
seguinte propriedade: se combinarmos uma solução ótima para o subproblema com a escolha gulosa que fizemos, 
chegamos a uma solução ótima para o problema original. 


Usaremos esse processo mais direto em seções posteriores deste capítulo. Apesar disso, embaixo de todo 
algoritmo guloso, quase sempre existe uma solução de programação dinâmica mais incômoda. 

Como saber se um algoritmo guloso resolverá determinado problema de otimização? Nenhum método funciona 
todas as vezes, mas a propriedade de escolha gulosa e a subestrutura ótima são os dois componentes fundamentais. Se 
pudermos demonstrar que o problema tem essas propriedades, estaremos no bom caminho para desenvolver um 
algoritmo guloso para ele. 


Propriedade de escolha gulosa 


O primeiro componente fundamental é a propriedade de escolha gulosa: podemos montar uma solução 
globalmente ótima fazendo escolhas (gulosas) locais ótimas. Em outras palavras, quando estamos considerando qual 
escolha fazer, escolhemos a que parece melhor para o problema em questão, sem considerar resultados de 
subproblemas. 

É nesse ponto que os algoritmos gulosos são diferentes da programação dinâmica. Na programação dinâmica, 
fazemos uma escolha em cada etapa, mas, normalmente a escolha depende das soluções para subproblemas. 
Consequentemente, em geral, resolvemos problemas de programação dinâmica de baixo para cima, passando de 
subproblemas menores para subproblemas maiores. (Alternativamente, podemos resolvê-los de cima para baixo, mas 
usando memoização. É claro que, mesmo que o código funcione de cima para baixo, ainda temos de resolver os 
subproblemas antes de fazer uma escolha.) Em um algoritmo guloso, fazemos qualquer escolha que pareça melhor no 
momento e depois resolvemos o subproblema que resta. A escolha feita por um algoritmo guloso pode depender das 
escolhas até o momento em questão, mas não pode depender de nenhuma escolha futura ou das soluções para 
subproblemas. Assim, diferentemente da programação dinâmica, que resolve os subproblemas antes de fazer a primeira 
escolha, um algoritmo guloso faz sua primeira escolha antes de resolver qualquer subproblema. Um algoritmo de 
programação dinâmica age de baixo para cima, ao passo que, uma estratégia gulosa em geral age de cima para baixo, 
fazendo uma escolha gulosa após outra, reduzindo cada instância do problema dado a uma instância menor. 

É claro que, temos de provar que uma escolha gulosa em cada etapa produz uma solução globalmente ótima. 
Normalmente, como no caso do Teorema 16.1, a prova examina uma solução globalmente ótima para algum 
subproblema. Então, mostra como modificar a solução para usar a escolha gulosa no lugar de alguma outra escolha, 
resultando em um subproblema semelhante, porém menor. 


Normalmente, podemos fazer a escolha gulosa com maior eficiência do que quando temos de considerar um 
conjunto de escolha mais amplo. Por exemplo, no problema de seleção de atividades, considerando que já tivéssemos 
organizado as atividades em ordem monotonicamente crescente de tempos de término, precisávamos examinar cada 
atividade apenas uma vez. Reprocessando a entrada ou usando uma estrutura de dados apropriada (quase sempre uma 
fila de prioridades), muitas vezes, podemos fazer escolhas gulosas rapidamente, produzindo assim um algoritmo 
eficiente. 


Subestrutura ótima 


Um problema exibe subestrutura ótima se uma solução ótima para o problema contiver soluções ótimas para 
subproblemas. Essa propriedade é um componente fundamental para avaliar a aplicabilidade da aplicação da 
programação dinâmica e também a de algoritmos gulosos. Como exemplo de subestrutura ótima, lembre-se de como 
demonstramos na Seção 16.1 que, se uma solução ótima para o subproblema S,, incluir uma atividade a,, então ela 
também deve conter soluções ótimas para os subproblemas S,, e S,. Dada essa subestrutura Ótima, demonstramos que, 
se soubéssemos qual atividade usar como a,, poderemos construir uma solução ótima para S, selecionando a, 
juntamente com todas as atividades em soluções ótimas para os subproblemas S, e $,;. Com base nessa observação de 
subestrutura ótima, pudemos criar a recorrência (16.2) que descrevia o valor de uma solução ótima. 

Normalmente, usamos uma abordagem mais direta em relação à subestrutura ótima quando a aplicamos a 
algoritmos gulosos. Conforme já mencionamos, podemos nos permitir o luxo de supor que chegamos a um subproblema 
por termos feito a escolha gulosa no problema original. Na realidade, basta que demonstremos que uma solução ótima 
para o subproblema, combinada com a escolha gulosa já feita, produz uma solução ótima para o problema original. 
Esse esquema utiliza implicitamente indução em relação aos subproblemas para provar que fazer a escolha gulosa em 
cada etapa produz uma solução ótima. 


Estratégia gulosa versus programação dinâmica 


Como as estratégias gulosa e de programação dinâmica exploram subestrutura ótima, bem que você poderia ser 
tentado a gerar uma solução de programação dinâmica para um problema quando uma solução gulosa seria suficiente 
ou, ao contrário, achar erroneamente que uma solução gulosa funciona quando, na verdade, seria preciso uma solução 
de programação dinâmica. Para ilustrar as sutilezas entre as duas técnicas, vamos investigar duas variantes de um 
problema clássico de otimização. 

Apresentamos a seguir, o problema da mochila 0-1. Um ladrão que assalta uma loja encontra n itens. O i-ésimo 
item vale v, reais e pesa w, quilos, onde v, e w, são inteiros. Ele deseja levar consigo a carga mais valiosa possível, mas 
só pode carregar no máximo W quilos em sua mochila, sendo W um número inteiro. Que ítens ele deve levar? (Esse 
problema da mochila chama-se 0-1 porque, para cada item, o ladrão tem de decidir se o carrega consigo ou se o deixa 
para trás; ele não pode levar uma quantidade fracionária de um item nem um item mais de uma vez.) 

No problema fracionário da mochila, a configuração é a mesma, mas o ladrão pode levar frações de itens, em 
vez de ter de fazer uma escolha binária (0-1) para cada ítem. Para perceber melhor a diferença, imagine que um ítem no 
problema da mochila 0-1 seja como um lingote de ouro, enquanto um item no problema da mochila fracionário seria 
semelhante a ouro em pó. 

Ambos os problemas da mochila exibem a propriedade de subestrutura ótima. No caso do problema 0-1, 
considere a carga mais valiosa, que pesa no máximo W quilos. Se removermos o item j dessa carga, a carga restante 
deverá ser a carga mais valiosa que pese no máximo W — w, que o ladrão pode levar dos n — 1 itens originais, excluindo 
j. Por comparação, no caso do problema fracionário, considere que, se removermos um peso w de um item; da carga 
ótima, a carga restante deverá ser a carga mais valiosa que pese no máximo W — w que o ladrão pode levar dos n — 1 
itens originais mais w; — w quilos do item. 


Embora os problemas sejam semelhantes, podemos resolver o problema fracionário da mochila por uma estratégia 
gulosa, mas não podemos usar essa mesma estratégia para resolver o problema 0-1. Para resolver o problema 
fracionário, primeiro calculamos o valor por quilo v;/w, para cada item. Obedecendo a uma estratégia gulosa, o ladrão 
começa levando o máximo possível do item que tenha o maior valor por quilo. Se o suprimento desse item se esgotar e 
o ladrão ainda puder carregar mais, levará o máximo possível do próximo item que tenha o maior valor por quilo e 
assim por diante até alcançar seu peso limite W Portanto, ordenando os itens por valor por quilo, o algoritmo guloso é 
executado no tempo O(n lg n). Deixamos para o Exercício 16.2-1 a prova de que o problema fracionário da mochila 
tem a propriedade de escolha gulosa. 

Para ver que essa estratégia gulosa não funciona para o problema da mochila 0-1, considere a instância do 
problema ilustrada na Figura 16.2(a). Esse exemplo tem três itens e uma mochila que pode conter 50 quilos. O ítem 1 
pesa 10 quilos e vale 60 reais. O item 2 pesa 20 quilos e vale 100 reais. O ítem 3 pesa 30 quilos e vale 120 reais. 
Portanto, o valor por quilo do item 1 é 6 reais por quilo, que é maior que o valor por quilo do item 2 (5 reais por quilo) 
ou do item 3 (4 reais por quilo). Assim, a estratégia gulosa levaria o ítem 1 primeiro. Porém, como podemos ver pela 
análise de caso na Figura 16.2(b), a solução ótima leva os itens 2 e 3 e deixa o item 1 para trás. As duas soluções 
possíveis que envolvem o item 1 são subótimas. 

Contudo, por comparação, a estratégia gulosa para o problema fracionário, que leva o item 1 primeiro, realmente 
produz uma solução ótima, como mostra a Figura 16.2(c). Levar o item 1 não funciona no problema 0-1 porque o 
ladrão não consegue encher sua mochila até a capacidade máxima, e o espaço vazio reduz o valor efetivo por quilo de 
sua carga. No problema 0-1, quando consideramos incluir um item na mochila, temos de comparar a solução para o 
subproblema que inclua tal item com a solução para o subproblema que exclua esse mesmo item, antes de podermos 
fazer a escolha. O problema formulado desse modo dá origem a muitos subproblemas sobrepostos — uma marca 
registrada da programação dinâmica. Realmente, como o Exercício 16.2-2 pede que você mostre, podemos usar 
programação dinâmica para resolver o problema 0-1. 
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Figura 16.2 Umexemplo que mostra que a estratégia gulosa não funciona para o problema da mochila 0-1. (a) O ladrão deve selecionar 
um subconjunto dos três itens mostrados cujo peso não pode exceder 50 quilos. (b) O subconjunto ótimo inclui os itens 2 e 3. Qualquer 
solução como item 1 é subótima, embora o item 1 tenha o maior valor por quilo. (c) Para o problema fracionário da mochila, tomar os 
itens em ordem de maior valor por quilo produz uma solução ótima. 


Exercícios 
16.2-1 Prove que o problema fracionário da mochila tem a propriedade de escolha gulosa. 


16.2-2 Dê uma solução de programação dinâmica para o problema da mochila 0-1 que seja executado no tempo 
O(nW), onde n é número de itens e W é o peso máximo de ítens que o ladrão pode pôr em sua mochila. 


16.2-3 Suponha que, em um problema da mochila 0-1, a ordem dos itens quando ordenados por peso crescente seja 
igual à ordem quando ordenados por valor decrescente. Dê um algoritmo eficiente para determinar uma 


solução ótima para essa variante do problema da mochila e mostre que seu algoritmo é correto. 


16.2-4 O professor Gekko sempre sonhou em atravessar o estado de Dakota do Norte de patins. Ele planeja 
atravessar o estado pela rodovia U.S. 2, que vai de Grand Forks, na divisa leste com o estado de Mimesota, 
até Williston, perto da divisa oeste com o estado de Montana. O professor pode carregar dois litros de água e 
patinar m quilômetros antes de esgotar seu estoque de água. (Como o relevo de Dakota do Norte é 
relativamente plano, ele não precisa se preocupar com beber uma quantidade maior de água em trechos em 
aclive do que em trechos em declive e planos.) O professor partirá de Grand Forks com dois litros de água 
completos. O mapa oficial do estado de Dakota do Norte mostra todos os lugares ao longo da rodovia U.S. 
2, onde ele poderá reabastecer seu estoque de água e as distâncias entre eles. 


A meta do professor é minimizar o número de paradas para reabastecimento de água ao longo de sua rota 
pelo estado. Dê um método eficiente pelo qual ele possa determinar em quais lugares deverá repor seu 
estoque de água. Prove que tal estratégia produz uma solução ótima e dê o tempo de execução dessa 
estratégia. 


16.2-5 Descreva um algoritmo eficiente que, dado um conjunto (x ,, x», ..., x,) de pontos na reta de números reais, 
determina o menor conjunto de intervalos fechados de comprimento unitário que contém todos os pontos 
dados. Mostre que seu algoritmo é correto. 


16.2-6 * Mostre como resolver o problema fracionário da mochila no tempo O(n). 


16.2-7 Suponha que você tenha dois conjuntos 4 e B, cada um contendo n inteiros positivos, e que possa reordenar 
cada conjunto como preferir. Depois da reordenação, seja a, o i-ésimo elemento do conjunto 4 e seja b, o i- 


E! n b, 

ésimo elemento do conjunto B. Então, você obtém uma compensação de i=1 1 Deum aleoritmo 
que maximize essa compensação. Prove que seu algoritmo maximiza a compensação e dê seu tempo de 
execução. 


16.3 Cóvigos DE HurrMAN 


Códigos de Huffman comprimem dados muito efetivamente: economias de 20-90% são típicas, dependendo das 
características dos dados que estão sendo comprimidos. Consideramos os dados como uma sequência de caracteres. 
O algoritmo guloso de Huffman utiliza uma tabela que dá o número de vezes que cada caractere ocorre (isto é, suas 
frequências) para elaborar um modo ótimo de representar cada caractere como uma cadeia binária. 

Suponha que tenhamos um arquivo de dados de 100.000 caracteres que desejamos armazenar compactamente. 
Observamos que os caracteres no arquivo ocorrem com as frequências dadas pela Figura 16.3. Isto é, somente seis 
caracteres diferentes aparecem, e o caractere a ocorre 45.000 vezes. 

Há muitas opções para representar tal arquivo de informações. Aqui, consideramos o problema de projetar um 
código de caracteres binários (ou código, para abreviar) no qual cada caractere seja representado por uma cadeia 
binária única que denominaremos palavra de código. Se usarmos um código de comprimento fixo, precisaremos de 
três bits para representar seis caracteres: a = 000, b = 001, ..., f= 101. Esse método requer 300.000 bits para 
codificar o arquivo inteiro. Podemos fazer algo melhor? 

Um código de comprimento variável pode funcionar consideravelmente melhor que um código de comprimento 
fixo atribuindo palavras de código curtas a caracteres frequentes e palavras de código longas a caracteres pouco 
frequentes. A Figura 16.3 mostra um código desse tipo; aqui, a cadeia de 1 bit O representa a, e a cadeia de 4 bits 1100 
representa £f Esse código requer 


(45:1+13:3+12:3+16:3+9-4+5-4)- 1.000 = 224.000 bits 


para representar o arquivo, uma economia de aproximadamente 25%. De fato, esse é um código de caracteres ótimo 
para esse arquivo, como veremos. 


Códigos de prefixo 


Consideramos aqui apenas códigos nos quais nenhuma palavra de código seja também um prefixo de alguma outra 
palavra de código. Tais códigos são denominados códigos de prefixo.3 Embora não o provemos aqui, um código de 
prefixo sempre consegue a compressão de dados ótima em qualquer código de caracteres, portanto não haverá 
prejuízo para a generalidade se restringirmos nossa atenção a códigos de prefixo. 

Codificar é sempre simples para qualquer código de caracteres binários; simplesmente concatenamos as palavras 
de código que representam cada caractere do arquivo. Por exemplo, com o código de prefixo de comprimento variável 
da Figura 16.3, codificamos o arquivo de três caracteres abc como O - 101 - 100 = 0101100, onde “-” denota 
concatenação. 

Códigos de prefixo são desejáveis porque simplificam a decodificação. Como nenhuma palavra de código é um 
prefixo de qualquer outra, a palavra de código que inicia um arquivo codificado não é ambígua. Podemos simplesmente 
identificar a palavra de código inicial, traduzi-la de volta para o caractere original e repetir o processo de decodificação 
no restante do arquivo codificado. Em nosso exemplo, a cadeia 001011101 é analisada unicamente como O - O - 101 - 
1101, que é decodificada como aabe. 

O processo de decodificação precisa de uma representação conveniente para o código de prefixo, de modo que 
possamos extrair facilmente a palavra de código inicial. Uma árvore binária cujas folhas são os caracteres nos dá tal 
representação. Interpretamos a palavra de código binária para um caractere como o caminho simples da raiz até esse 
caractere, onde O significa “vá para o filho à esquerda” e 1 significa “vá para o filho à direita”. A Figura 16.4 mostra as 
árvores para os dois códigos do nosso exemplo. Observe que elas não são árvores de busca binária, já que as folhas 
não precisam aparecer em sequência ordenada e os nós internos não contêm chaves de caracteres. 

Um código ótimo para um arquivo é sempre representado por uma árvore binária cheia, na qual cada nó que não é 
uma folha tem dois filhos (veja o Exercício 16.3-2). O código de comprimento fixo em nosso exemplo não é ótimo, já 
que sua árvore, mostrada na Figura 16.4(a), não é uma árvore binária cheia: ela contém palavras de código que 
começam com 10..., mas nenhuma com 11.... Visto que agora podemos restringir nossa atenção a árvores binárias 
completas, podemos dizer que, se C é o alfabeto do qual os caracteres são extraídos e todas as frequências de 
caracteres são positivas, então a árvore para um código de prefixo ótimo tem exatamente |C| folhas, uma para cada 
letra do alfabeto, e exatamente |C| — 1 nós internos (veja o Exercício B.5-3). 


Frequência (em milhares) 45 13 12 16 9 5 
Palavra de código de comprimento fixo 000 001 010 011 100 101 
Palavra de código de comprimento variável 0 101 100 111 1101 1100 
Figura 16.3 Umproblema de codificação de caracteres. Um arquivo de dados de 100.000 caracteres contém somente os caracteres a-f, 


comas frequências indicadas. Se atribuirmos a cada caractere uma palavra de código de três bits, poderemos codificar o arquivo em 
300.000 bits. Usando o código de comprimento variável mostrado, podemos codificar o arquivo em apenas 224.000 bits. 


(a) (b) 


Figura 16.4 Árvores correspondentes aos esquemas de codificação na Figura 16.3. Cada folha é identificada com um caractere e sua 
frequência de ocorrência. Cada nó intemo é identificado coma soma das frequências das folhas em sua subárvore. (a) A árvore 
correspondente ao código de comprimento fixo a = 000, ..., f= 101. (b) A árvore correspondente ao código de prefixo ótimo a =0,b = 101, 
«., f= 1100. 


Dada uma árvore T' correspondente a um código de prefixo, é fácil calcular o número de bits exigidos para 
codificar um arquivo. Para cada caractere c no alfabeto C, o atributo c.freg denota a frequência de c no arquivo e d,(c) 
denota a profundidade de folha de c na árvore. Observe que d,(c) é também o comprimento da palavra de código para 
o caractere c. Assim, o número de bits exigidos para codificar um arquivo é 


B(T)= >c.freq -d(c), (16.4) 


que definimos como o custo da árvore T. 


Construção de um código de Huffman 


Huffinan criou um algoritmo guloso que produz um código de prefixo ótimo denominado código de Huffman. De 
acordo com nossas observações na Seção 16.2, a prova de sua correção se baseia na propriedade de escolha gulosa e 
subestrutura ótima. Em vez de demonstrar que essas propriedades são válidas e depois desenvolver pseudocódigo, 
apresentamos primeiro o pseudocódigo. Isso ajudará a esclarecer como o algoritmo faz escolhas gulosas. 

No pseudocódigo a seguir, supomos que € seja um conjunto de n caracteres e que cada caractere c E € seja um 
objeto com um atributo c.freg que dá sua frequência. O algoritmo constrói de baixo para cima a árvore T 
correspondente ao código ótimo. Começa com um conjunto de |C| folhas e executa uma sequência de |C| — 1 
operações de “intercalação” para criar a árvore final. 

O algoritmo usa uma fila de prioridade mínima O, chaveada no atributo freg, para identificar os dois objetos menos 
frequentes que serão intercalados. Quando intercalamos dois objetos, o resultado é um novo objeto cuja frequência é a 
soma das frequências dos dois objetos que foram intercalados. 


HurrMaN(C) 

1 n=|C| 

2 Q=€C 

3 fori=lton-1 

4 alocar um novo nó z 

5 z.esquerda = x = EXTRACT-MIN(O) 
6 z.direita = y = EXTRACT-MIN(Q) 
7 
8 
9 


zfreq = x.freq + y.freq 
INSERT(Q, Z) 
return EXTRACT-MIN(Q) // retorna a raiz da árvore. 


Em nosso exemplo, o algoritmo de Huffiman procede como mostra a Figura 16.5. Visto que o alfabeto contém seis 
letras, o tamanho da fila inicial é n = 6, e cinco etapas de intercalação constroem a árvore. A árvore final representa o 
código de prefixo ótimo. A palavra de código para uma letra é a sequência de etiquetas de arestas no caminho simples 
da raiz até a letra. 

A linha 2 inicialza a fila de prioridade mínima OQ com os caracteres em €. O laço for nas linhas 3-8 extrai 
repetidamente da fila os dois nós x e y de frequência mais baixa e os substitui na fila por um novo nó z que representa 
sua intercalação. A frequência de z é calculada como a soma das frequências de x e y na linha 7. O nó z tem x como 
seu filho à esquerda e y como seu filho à direita. (Essa ordem é arbitrária; trocar o filho à esquerda pelo filho à direita de 
qualquer nó produz um código diferente que tem o mesmo custo.) Depois de n — 1 intercalações, a linha 9 retorna o 
único nó que sobrou na fila, que é a raiz da árvore de código. 


(a) [£:5] [e:9] [e:12] [6:13] [d:16] [a:45] (b) [c:12] [b:13 (14) [d:16] [a:45 
0 N 
(c) (d) (25) (30) a:45 
AA 
[c:12] [b:13 (14 
0 l 
£:5 |] [e:9 


Figura 16.5 Etapas do algoritmo de Huffman para as frequências dadas na Figura 16.3. Cada parte mostra o conteúdo da fila ordenado 
em ordem crescente de frequência. Em cada etapa, as duas árvores com frequências mais baixas são intercaladas. As folhas são 
mostradas como retângulos contendo um caractere e sua frequência. Nós internos são mostrados como círculos, contendo a soma das 
frequências de seus filhos. Uma aresta conectando umnó intemno a seus filhos é rotulada por O se é uma aresta para um filho à esquerda, 
e com 1, se é uma aresta para um filho à direita. A palavra de código para uma letra é a sequência de rótulos nas arestas que conectam a 
raiz à folha correspondente a essa letra. (a) O conjunto inicial de n = 6 nós, um para cada letra. (b)-(e) Estágios intermediários. (f) A 
árvore final. 


Apesar de que o algoritmo produziria o mesmo resultado se tivéssemos excluído as variáveis x e y — atribuindo 
diretamente z.esquerda e z.direita nas linhas 5 e 6, e mudando a linha 77 para z.freg = z.esquerda.freg + z.direita.freq 
— usaremos os nomes de nó x e y na prova de correção do algoritmo. Portanto, achamos conveniente deixá-los onde 
estão. 

Para analisar o tempo de execução do algoritmo de Huffman, supomos que O seja implementada como um heap 
de mínimo binário (veja o Capítulo 6). Para um conjunto C de n caracteres, podemos inicializar O na linha 2 em tempo 
O(n) usando o procedimento Bum p-Min-Hear discutido na Seção 6.3. O laço for nas linhas 3-8 é executado exatamente 
n — 1 vezes e, visto que cada operação de heap requer o tempo O(lg nn), o laço contribui com O(n lg n) para o tempo 
de execução. Assim, o tempo de execução total de Hurrman em um conjunto de n caracteres é O(n lg n). Podemos 
reduzir o tempo de execução para O(n lg lg n) substituindo o heap de mínimo binário por uma árvore de van Emde 
Boas (veja o Capítulo 20). 


Correção do algoritmo de Huffman 


Para provar que o algoritmo guloso Hurrman é correto, mostramos que o problema de determinar um código de 
prefixo ótimo exibe as propriedades de escolha gulosa e subestrutura ótima. O lema a seguir mostra que a propriedade 
de escolha gulosa é válida. 


Lema 16.2 


Seja C um alfabeto no qual cada caractere c E C tem frequência c.freg. Sejam x e y dois caracteres em C que têm as 
frequências mais baixas. Então, existe um código de prefixo ótimo para € no qualas palavras de código para x e y têm 
o mesmo comprimento e diferem apenas no último bit. 


Prova A ideia da prova é tomar a árvore 7 que representa um código de prefixo ótimo arbitrário e modificá-la para 
criar uma árvore que represente outro código de prefixo ótimo, tal que os caracteres x e y apareçam como folhas irmãs 
de profundidade máxima na nova árvore. Se pudermos construir tal árvore, suas palavras de código para x e y terão o 
mesmo comprimento e serão diferentes apenas no último bit. 

Sejam a e b dois caracteres que são folhas irmãs de profundidade máxima em T. Sem prejuízo da generalidade, 
supomos que a. freg <b. frege x. freg <y. freg. 

Visto que x. freg e y. freg são as duas frequências de folha mais baixas, em ordem, e a. freg e b. freg são duas 
frequências arbitrárias, em ordem, temos x. freg <a. freg ey. freg < b. freg. 

No restante da prova, é possível que tivéssemos x. freg = a. freg ou y. freg = b. freg. Contudo, se tivéssemos x. 
freg = b. freq, teriamos também a. freg = b. freg = x. freg = y. freg (veja o Exercício 16.3-1), e o lema seria 
trivialmente verdadeiro. Assim, suporemos que x. freg + b. freg, o que implica em x £ b. 


Figura 16.6 Uma ilustração da etapa fundamental na prova do Lema 16.2. Na árvore ótima 7, as folhas a e b são duas irmãs de 
profundidade máxima. As folhas x e y são os dois caracteres que têm as frequências mais baixas; eles aparecem em posições arbitrárias 
em 7. Considerando que xb, permutar as folhas a e x produza árvore T”, e permutar as folhas b e y produza árvore T”. Visto que cada 
permuta não aumenta o custo, a árvore resultante T” é também uma árvore ótima. 


Como a Figura 16.6 mostra, permutamos as posições de a e x em T para produzir uma árvore 7”, e então 
permutamos as posições de b e y em T” para produzir uma árvore T” na qual x e y são folhas irmãs de profundidade 
máxima. (Observe que, se x = b, mas y % a, então a árvore 7” não tem x e y como folhas irmãs de profundidade 
máxima. Como supomos que x £ b, essa situação não pode ocorrer.) Pela equação (16.4), a diferença de custo entre 7 
ee 

B(T)- B(T) 
— Sae.fregd (O) Se.freg-d (c)- 
cel 


x.freq-d, (x) + Ra (a)—x.freg-d,(x)-a.freq-d, (a) 
x.freq-d (x)-+a.fregd (a)-x.freq-d (a)—a. freg-d (x) 
= (a.freg-x.freaXdT(a)-d, (09) 

> O; 


porque a. freg — x. freg e d, (a) — d, (x) são não negativas. Mais especificamente, a.freg — x. freg é não negativa 
porque x é uma folha de frequência mínima, e d;(a) — d;(x) é não negativa porque a é uma folha de profundidade 
máxima em 7. De modo semelhante, permutar y e b não aumenta o custo e, assim, B(T”) — B(T”) é não negativa. Por 
consequência, B(7"”) < B(T), e, visto que T é ótima, temos B(T) < B(T”), o que implica B(T”) = B(7). Assim, T” é uma 
árvore ótima na qual x e y aparecem como folhas irmãs de profundidade máxima, da qual o lema decorre. 

O Lema 16.2 implica que o processo de construir uma árvore ótima por intercalações pode, sem prejuízo da 
generalidade, começar com a escolha gulosa de intercalar os dois caracteres de frequência mais baixa. Por que essa é 
uma escolha gulosa? Podemos ver o custo de uma intercalação isolada como a soma das frequências dos dois itens que 
estão sendo intercalados. O Exercício 16.3-4 mostra que o custo total da árvore construída é igual à soma dos custos 
de suas intercalações. De todas as intercalações possíveis em cada etapa, Hurrman escolhe aquela que incorre no menor 
custo. 

O próximo lema mostra que o problema de construir códigos de prefixo ótimos tem a propriedade de subestrutura 
ótima. 


Lema 16.3 


Seja € um dado alfabeto com frequência c.freg definida para cada caractere c & €. Sejamx e y dois caracteres em € 
com frequência mínima. Seja C” o alfabeto C do qual os caracteres x e y foram removidos e um novo caractere z foi 
acrescentado, de modo que C'= C-— (x,yj U (z?. Defina freg para C” como foi definido para €C, exceto que z. freg 
=x. freg + y. freg. Seja T” qualquer árvore que represente um código de prefixo ótimo para o alfabeto C”. Então a 
árvore T, obtida de T"pela substituição do nó folha com z por um nó interno que tem x e y como filhos, representa um 
código de prefixo ótimo para o alfabeto €. 


Prova Primeiro, mostramos como expressar o custo B(T) da árvore 7 em termos do custo B(T” da árvore T”, 
considerando os custos componentes na equação (16.4). Para cada caractere c E C — fx, y), temos que d,(c) = 
dy (c) e, portanto, c.freg : di(c) = c.freg : d;(c). Visto que d;(x) = d;(y) = d, (2), temos 


(x. freg+y.freg Kd. (z)+1) 
z.freq-d, (z)+(x.freg+y.freg) 


x.freq-d (x)+y.freg-d (y) 


do qual concluímos que 
B(T) = B(T9) + x. freg + y. freq 
ou, o que é equivalente, 


B(T) = B(T”) — x. freg — y. freg. 


Agora, provamos o lema por contradição. Suponha que 7 não represente um código de prefixo ótimo para C. Então, 
existe uma árvore T” tal que B(T” ) < B(7). Sem prejuízo da generalidade (pelo Lema 16.2), T” tem x e y como 
irmãos. Seja 7”a árvore T”na qual o pai comum de x e y seja substituído por uma folha z com frequência z.freg = x. 
freg + y. freg. Então, 


B(T”) = B(T)-x.freg—y.freq 


B(T)—x.freg—y.freq 
= BC), 


A 


o que produz uma contradição para a suposição de que 7” representa um código de prefixo ótimo para C”. Assim, T 
deve representar um código de prefixo ótimo para o alfabeto C. 


Teorema 16.4 


O procedimento Hurrman produz um código de prefixo ótimo. 


Prova Imediata, pelos Lemas 16.2 e 16.3. 


Exercícios 

16.3-1 Explique por que, na prova do Lema 16.2, se x. freg = b. freg, devemos ter a. freg = b. freg = x. freg = ). 
freg. 

16.3-2 Prove que uma árvore binária que não é completa não pode corresponder a um código de prefixo ótimo. 


16.3-3 Qual é o código de Huffiman ótimo para o conjunto de frequências a seguir, baseado nos oito primeiros 
números de Fibonacci? 


a:l b:il c2 d3 e:s £8 g13 h21 


Você pode generalizar sua resposta para determinar o código ótimo quando as frequências são os primeiros n 
números de Fibonacci? 


16.3-4 Prove que também podemos expressar o custo total de uma árvore para um código como a soma, para todos 
os nós internos, das frequências combinadas dos dois filhos do nó. 


16.3-5 Prove que, se ordenarmos os caracteres em um alfabeto de modo que suas frequências sejam 
monotonicamente decrescentes, existe um código ótimo no qual os comprimentos de palavras de código são 
monotonicamente crescentes. 


16.3-6 Suponha que tenhamos um código de prefixo ótimo para um conjunto de caracteres C= (0, 1,..,;n-—- Ile 
desejamos transmitir esse código usando o menor número de bits possível. Mostre como representar qualquer 
código de prefixo ótimo para C usando somente 2n —- 1 + n lg n bits. (Sugestão: Use 2n — 1 bits para 
especificar a estrutura da árvore, como constatada por um percurso da árvore.) 


16.3-7  Generalize o algoritmo de Huffiman para palavras de código ternárias (isto é, palavras de código que utilizam 
os símbolos 0, 1 e 2) e prove que ele produz códigos ternários ótimos. 


16.3-8 Suponha que um arquivo de dados contenha uma sequência de caracteres de 8 bits tal que todos os 256 
caracteres são, quase todos, igualmente comuns: a frequência máxima de caracteres é menor que duas vezes a 


frequência mínima de caracteres. Prove que a codificação de Huffman nesse caso não é mais eficiente que 
usar um código normal de comprimento fixo de 8 bits. 


16.3-9 Mostre que nenhum esquema de compressão pode esperar comprimir em um arquivo de caracteres de 8 bits 
escolhidos aleatoriamente nem um único bit sequer. (Sugestão: Compare o número de arquivos possíveis com 
o número de arquivos codificados possíveis.) 


16.4 sx MiarROIDES E MÉTODOS GULOSOS 


Nesta seção, esboçamos uma bela teoria para algoritmos gulosos, que descreve muitas situações nas quais o 
método guloso produz soluções ótimas. Tal teoria envolve estruturas combinatórias conhecidas como “matroides”. 
Embora não abranja todos os casos aos quais um método guloso se aplica (por exemplo, não abrange o problema de 
seleção de atividades da Seção 16.1 nem o problema de codificação de Huffman da Seção 16.3), ela inclui muitos 
casos de interesse prático. Além disso, essa teoria foi estendida para abranger muitas aplicações; as notas no final deste 
capítulo citam referências. 


Matroides 


Um matroide é um par ordenado M = (5, 1) que satisfaz as seguintes condições: . 
1. Sé umconjunto finto. 
2. é uma família não vazia de subconjuntos de S, denominados subconjuntos independentes de S, tais que, se B E I 

e4 € B, então 4 E 1. Dizemos que I é hereditário se satisfaz essa propriedade. Observe que o conjunto vazio 2 

é necessariamente um membro de I. 

3. Se4 E 1, B E Ie[|4|< IB), então existe algum elemento x E B-Atalque 4 U (x; E I. Dizemos que M 
satisfaz a propriedade de troca. 

A palavra “matroide” se deve a Hassler Whitney. Ele estava estudando matroides matriciais, nos quais os 
elementos de .S são as linhas de uma dada matriz e um conjunto de linhas é independente se elas são linearmente 
independentes no sentido usual. Como o Exercício 16.4-2 pede para mostrar, essa estrutura define um matroide. 

Como outro exemplo de matroides, considere o matroide gráfico Mg = (Sg » 16) definido em termos de um 
determinado grafo não dirigido G = (V, E) da seguinte maneira: 

* O conjunto Scé definido como E, o conjunto de arestas de G. 
* Se 4 é um subconjunto de E, então 4 E IG. se e somente se 4 é acíclico. Ou seja, um conjunto de arestas 4 é 
independente se e somente se o subgrafo G« = (V, 4) forma uma floresta. 

O matroide gráfico M, está intimamente relacionado com o problema da árvore geradora mínima, apresentado em 
detalhes no Capítulo 23. 


Teorema 16.5 


Se G = (V, E) é um grafo não dirigido, então M,, = (Sg, 19) é um matroide. 


Prova Claramente, S«, = E é um conjunto finito. Além disso, é hereditário, já que um subconjunto de uma floresta é uma 
floresta. Em outros termos, remover arestas de um conjunto acíclico de aresta não pode criar ciclos. 
Assim, resta mostrar que M,, satisfaz a propriedade de troca. Suponha que G, = (V, 4) e GB = (V, B) sejam 
florestas de G e que |B| > |4]. Isto é, 4 e B são conjuntos acíclicos de arestas e B contém mais arestas que 4. 
Afirmamos que uma floresta F = (V,., E,) contém exatamente |V,.| —|E,| árvores. Para ver por que, suponha que F 
consista de três árvores, onde a i-ésima árvore contenha v, vértices e e, arestas. Então, temos 


= > o — 1) (pelo Teorema B.2) 
ir 

ni >, = 
i=1 


= IV. l-t, 
que implica que t =|V,| —|E,|. Assim, a floresta G, contém |V] —|4] árvores, e a floresta Gp contém|V| — |B| árvores. 


Visto que a floresta G, tem menos árvores que a floresta G,, a floresta Gp deve conter alguma árvore T' cujos vértices 
estão em duas árvores diferentes na floresta G,. Além disso, como T está conectada, ela deve conter uma aresta (u, v) 
tal que os vértices u e v estão em árvores diferentes na floresta G,. Visto que a aresta (u, v) conecta vértices em duas 
árvores diferentes na floresta G,, podemos adicionar a aresta (1, v) à floresta G, sem criar um ciclo. Então, M,, satisfaz 
a propriedade de troca, completando a prova de que M é um matroide. 

Dado um matroide M = (S, D, dizemos que um elemento x É 4 é uma extensão de 4 E I se x pode ser 
acrescentado a 4 preservando independência; isto é, x é uma extensão de 4 se 4 U (x) E TI. Como exemplo, 
considere um matroide gráfico M q. Se 4 é um conjunto independente de arestas, então a aresta e é uma extensão de 4 
se e somente se e não está em 4 e o acréscimo de x a 4 não criar um ciclo. 

Se 4 é um subconjunto independente em um matroide M, dizemos que 4 é maximal se não tem nenhuma 
extensão. Isto é, 4 é maximal se não está contido em nenhum subconjunto independente maior de M. A propriedade 
dada a seguir é muito útil. 


Teorema 16.6 
Todos os subconjuntos independentes maximais em um matroide têm o mesmo tamanho. 
Prova Suponha, por contradição, que 4 seja um subconjunto independente maximal de M e que exista um outro 


subconjunto independente maximal maior B de M. Então, a propriedade de troca implica que, para algum x E B-4, 
podemos estender 4 até um conjunto independente maior 4 U fx), contradizendo a hipótese de que 4 é maximal. 


Como ilustração desse teorema, considere um matroide gráfico Mç para um grafo conexo e não dirigido G. Todo 
subconjunto independente máximo de M,, deve ser uma árvore livre com exatamente |V — 1 arestas que conecta todos 
os vértices de G. Tal árvore é denommada árvore geradora de G. 

Dizemos que um matroide M = (S, 1) é ponderado se está associado a uma função peso w que atribui um peso 
estritamente positivo w(x) a cada elemento x E S. A função peso w se estende a subconjuntos de S por somatório: 


w(A) = >. w(x) 


para qualquer 4 € S. Por exemplo, se w(e) denota o peso de uma aresta e em um matroide gráfico M,, então w(A) é 
o peso total das arestas no conjunto de arestas 4. 


Algoritmos gulosos em um matroide ponderado 


Muítos problemas para os quais uma abordagem gulosa dá soluções ótimas podem ser formulados em termos de 
encontrar um subconjunto independente de peso máximo em um matroide ponderado. Isto é, temos um matroide 
ponderado M = (S, 1) e desejamos encontrar um conjunto independente 4 & IT tal que w(4) seja maximizado. 
Denominamos tal subconjunto, que é independente e tem peso máximo possível, subconjunto ótimo do matroide. 
Como o peso w(x) de qualquer elemento x E S é positivo, um subconjunto ótimo é sempre um subconjunto 
independente maximal — ele sempre ajuda a tornar 4 tão grande quanto possível. 

Por exemplo, no problema da árvore geradora mínima, temos um grafo conexo não dirigido G = (V, E) e uma 
função comprimento w tal que w(e) é o comprimento (positivo) da aresta e. (Usamos o termo “comprimento” aqui em 
referência aos pesos de arestas originais para o grafo, reservando o termo “peso” para nos referirmos aos pesos no 
matroide associado.) Devemos encontrar um subconjunto das arestas que conecte todos os vértices e tenha 
comprimento total mínimo. Para ver esse problema como um problema de encontrar um subconjunto ótimo de um 
matroide, considere o matroide ponderado M,, com função peso w”, onde w'(e) = wy — w(e) e w, é maior que o 
comprimento máximo de qualquer aresta. Nesse matroide ponderado, todos os pesos são positivos e um subconjunto 
ótimo é uma árvore geradora de comprimento total mínimo no grafo original. Mais especificamente, cada subconjunto 
independente máximo 4 corresponde a uma árvore geradora com |[V| — 1 arestas e, visto que 


w(A) = > we) 


CEA 
= > (ww, — w(e)) 
CEA 
= (1Vl-Ivw, —S3 (e) 


CEA 
= (1Vl-Iw, —w(A) 


para qualquer subconjunto independente máximo 4, um subconjunto independente que maximiza a quantidade w (4) 
deve minimizar w(4). Assim, qualquer algoritmo que pode encontrar um subconjunto ótimo 4 em um matroide arbitrário 
pode resolver o problema da árvore geradora mínima. 

O Capítulo 23 dá algoritmos para o problema da árvore geradora mínima, mas aqui daremos um algoritmo guloso 
que funciona para qualquer matroide ponderado. O algoritmo toma como entrada um matroide ponderado M = (S, 1) 
com uma função peso positivo associada w e retorna um subconjunto ótimo 4. Em nosso pseudocódigo, denotamos os 
componentes de M por M.S e MI, e a função peso por w. O algoritmo é guloso porque considera cada elemento x & 
S por vez em ordem monotonicamente decrescente de peso e o adiciona imediatamente ao conjunto 4 que está sendo 
acumulado, se 4 U (x) é independente. 


GREEDY(M, w) 

A=e 

ordenar M.S em sequência monotonicamente decrescente de peso qw 

for cada x € M.S, tomado em ordem monotonicamente decrescente de peso w(x) 
fAUlx)EeM.Z 

5 A=AUl) 

6 retum A 


BON 


A linha 4 verifica se acrescentar cada elemento x a 4 manteria 4 como um conjunto independente. Se 4 
permanecer independente, a linha 5 acrescentará x a 4. Caso contrário, x é descartado. Visto que o conjunto vazio é 


independente, e já que cada iteração do laço for mantém a independência de 4, o subconjunto 4 é sempre 
independente, por indução. Consequentemente, Greeny sempre retorna um subconjunto independente 4. Veremos em 
breve que 4 é um subconjunto cujo peso é o máximo possível e, portanto, 4 é um subconjunto ótimo. 

O tempo de execução de Greeny é fácil de analisar. Considere que n denota |S]. A fase de ordenação de Grezpy 
demora o tempo O(n lg n). A linha 4 é executada exatamente n vezes, uma vez para cada elemento de S. Cada 
execução da linha 4 requer verrficar se o conjunto 4 U fx? é ou não independente. Se cada verificação demorar o 
tempo O(f(n)), o algoritmo inteiro será executado no tempo O(n lg n + nf(n)). 

Agora, provaremos que Greeny retorna um subconjunto ótimo. 


Lema 16.7 (Matroides exibem a propriedade de escolha gulosa) 


Suponha que M = (S, 1) seja um matroide ponderado com função peso w e que S esteja ordenado em ordem 
monotonicamente decrescente de peso. Seja x o primeiro elemento de S tal que (x! seja independente se tal x existir. 
Se x existe, então existe um subconjunto ótimo 4 de S que contém. 


Prova Se nenhum tal x existe, então o único subconjunto independente é o conjunto vazio e o lema é verdadeiro por 
vacuidade. Senão, seja B qualquer subconjunto ótimo não vazio. Suponha que x & B; caso contrário, fazer 4 = B dá um 
subconjunto ótimo de S que contém x. 

Nenhum elemento de B tem peso maior que w(x). Para ver por que, observe que y € B implica que (y) é 
independente, já que B € I, e I é hereditário. Portanto, nossa escolha de x assegura que w(x) > w(y) para qualquer y 
E B. 

Construa o conjunto 4 como descrevemos a seguir. Comece com 4 = fx). Pela escolha de x, o conjunto 4 é 
independente. Usando a propriedade de troca, determine repetidamente um novo elemento de B que podemos 
acrescentar a 4 até |4] = |B| e ao mesmo tempo preservar a independência de 4. Nesse ponto, 4 e B são iguais exceto 
que 4 temx e B tem algum outro elemento y. Isto é, 4=B- (y) U fx) para algumy E B, e assim 


w(A) = w(B)-w(y)+w(x) 
> w(B). 
Como o conjunto B é ótimo, o conjunto 4, que contém x, também deve ser ótimo. 


Mostraremos em seguida que, se um elemento não é uma opção inicialmente, não poderá ser uma opção mais 
tarde. 


Lema 16.8 


Seja M = (S, 1) um matroide. Se x é um elemento de S que é uma extensão de algum subconjunto independente 4 de 8, 
então x também é uma extensão de /0. 


Prova Como x é uma extensão de 4, temos que 4 U fx) é independente. Como é hereditário, fx! tem de ser 


independente. Assim, x é uma extensão de /0. 


Corolário 16.9 


Seja M = (S, 1) um matroide. Se x é um elemento de S tal que x não é uma extensão de /0, então x não é uma extensão 
de nenhum subconjunto independente 4 de S. 


Prova Este corolário é simplesmente o contrapositivo do Lema 16.8. 


O Corolário 16.9 diz que qualquer elemento que não pode ser usado imediatamente nunca poderá ser usado. 
Então, Grrepy não pode gerar um erro por ignorar quaisquer elementos iniciais em .S que não sejam uma extensão de /0, 
já que eles nunca poderão ser usados. 


Lema 16.10 (Matroides exibem a propriedade de subestrutura ótima) 


Seja x o primeiro elemento de S escolhido por Grezpy para o matroide ponderado M = (S, 1). O problema restante de 
determinar um subconjunto independente de peso máximo contendo x se reduz a determinar um subconjunto 
independente de peso máximo do matroide ponderado M'= (S”, 19, onde 


= WesibkueL+:, 
"= (BCS-(x):BUlx)eZ), 


e a função peso para M'é a função peso para M, restrita a $”. (Denominamos M'a contração de M pelo elemento x.) 


Prova Se A é um subconjunto independente de peso máximo de M contendo x, então 4º = A — fx) é um subconjunto 
independente de M'. Reciprocamente, qualquer subconjunto independente 4” de M" produz um subconjunto 
independente A = 4º U fx! de M. Visto que em ambos os casos temos que v(4) = w(4” + w(x), uma solução de 
peso máximo em M contendo x produz uma solução de peso máximo em M'e vice-versa. 


Teorema 16.11 (Correção do algoritmo guloso em matroides) 


Se M = (S, 1) é um matroide ponderado com função peso w, então Greeny(M, w) retorna um subconjunto ótimo. 


Prova Pelo Corolário 16.9, quaisquer elementos que Grerpy ignorar inicialmente porque não são extensões de /0 
podem ser esquecidos, já que nunca serão úteis. Tão logo Grezny selecione o primeiro elemento x, o Lema 16.7 implica 
que o algoritmo não erra por acrescentar x a 4, já que existe um subconjunto ótimo contendo x. Por fim, o Lema 16.10 
implica que o problema restante é o de encontrar um subconjunto ótimo no matroide M” que seja a contração de M por 
x. Depois que o procedimento Greepy atribui 4 com fx +,podemos interpretar que todas as suas etapas restantes agem 
no matroide M" = (S”, 0/” porque B é independente em M” se e somente se B U (x! é independente em M, para todos 
os conjuntos B & 7”. Assim, a operação subsequente de Greeny encontrará um subconjunto independente de peso 
máximo para M”, e a operação global de Grezny encontrará um subconjunto independente de peso máximo para M. 


Exercícios 


16.4-1 Mostre que (S, 1) é um matroide, onde S é qualquer conjunto finto e 1, é o conjunto de todos os 
subconjuntos de S de tamanho no máximo k, onde k < |S]. 


16.4-2 & Dada uma matriz Tm - n em algum corpo (como os números reais), mostre que (S, 1) é um matroide, onde 
S é o conjunto de colunas de Te 4 E Ise e somente se as colunas em 4 são linearmente independentes. 


16.4-3 % Mostre que, se (S, 1) é um matroide, então (S, 1”) é um matroide, onde 
V=(4":S-A'contémalgumA4 & I máximo). 


Isto é, os conjuntos independentes maximais de (S, 17 são exatamente os complementos dos conjuntos 
independentes maximais de (8, 17. 


16.4-4 X Seja S um conjunto finito e seja S,, S; ... S, uma partição de S em subconjuntos disjuntos não vazios. Defina 
a estrutura (S, 1) pela condição de que I= 4 :|ANS|<1parai=1,2,..., k!. Mostre que (S, 1) é um 


matroide. Isto é, o conjunto de todos os conjuntos 


A que contêm no máximo um membro em cada subconjunto na partição determmna os conjuntos 
independentes de um matroide. 


16.4-5 Mostre como transformar a função peso de um problema de matroide ponderado, onde a solução ótima 
desejada é um subconjunto independente maximal de peso mínimo, para fazer dele um problema-padrão de 
matroide ponderado. Mostre cuidadosamente que sua transformação está correta. 


16.5 x Um PROBLEMA DE PROGRAMAÇÃO DE TAREFAS COMO UM MATROIDE 


Um problema interessante que podemos resolver utilizando matroides é o de programar otimamente tarefas de 
tempo unitário em um único processador, onde cada tarefa tem um prazo final e uma multa que deve ser paga se esse 
prazo final não for cumprido. O problema parece complicado, mas podemos resolvê-lo de um modo 
surpreendentemente simples expressando-o como um matroide e utilizando um algoritmo guloso. 

Uma tarefa de tempo unitário é um trabalho, como um programa a ser executado em um computador, que 
requer exatamente uma unidade de tempo para ser concluído. Dado um conjunto finito S de tarefas de tempo unitário, 
uma programação para S é uma permutação de S especificando a ordem em que essas tarefas devem ser executadas. 
A primeira tarefa na programação começa no tempo O e termina no tempo 1; a segunda tarefa começa no tempo 1 e 
termina no tempo 2, e assim por diante. 

O problema de programar tarefas de tempo unitário com prazos finais e multas para um único 
processador tem as seguintes entradas: 

* - umconunto S= fa, a», ..., an; den tarefas de tempo unitário; 

* | umconjunto de n prazos finais inteiros di, db, ..., dn, tal que cada disatisfazl <d<nea 
tarefã a, deve terminar até o tempo d,; 

* um conjunto de n pesos não negativos ou multas w1, w», ..., Wn, tal que incorremos em uma multa w;se a tarefa a; 
não termina até o tempo d;e não incorremos em nenhuma multa se uma tarefa termina em seu prazo final. 
Queremos determinar uma programação para S que minimize a multa total incorrida quando prazos finais não são 

cumpridos. 

Considere uma dada programação. Dizemos que uma tarefa está atrasada nessa programação se ela termina após 
seu prazo final. Caso contrário, a tarefa está adiantada na programação. Sempre podemos transformar uma 
programação arbitrária para a forma adiantada na qual as tarefás adiantadas precedem as tarefas atrasadas. Para ver 
isso, observe que, se alguma tarefà adiantada a, seguir alguma tarefa atrasada a,, poderemos trocar as posições de a; e 
a; e a; ainda estará adiantada e a, ainda estará atrasada. 

Além do mais, podemos afirmar que sempre podemos transformar uma programação arbitrária para a forma 
canônica, na qual as tarefas adiantadas precedem as tarefas atrasadas e programamos as tarefas adiantadas em ordem 
monotonicamente crescentes de prazos finais. Para tal, colocamos a programação na forma adiantada. Então, desde 
que existam duas tarefas adiantadas a, e a, terminando nos tempos respectivos k e k + 1 na programação, tais que d; < 
d,, trocamos as posições de a, e a;. Como a tarefa a; está adiantada antes da troca, k + 1 < d;. Portanto, k+ | <d,e, 
assim, a tarefa a, ainda está adiantada após a troca. Como a tarefa a, é movida antes na programação, permanece 
adiantada após a troca. 

Assim, a busca por uma programação ótima se reduz a encontrar um conjunto 4 de tarefas que designamos como 
adiantadas na programação ótima. Tendo determinado 4, podemos criar a programação propriamente dita organizando 
uma lista dos elementos de 4 em ordem monotonicamente crescente de prazo final e, em seguida, organizando uma lista 
de tarefas atrasadas (isto é, S — 4) em qualquer ordem, produzindo uma ordenação canônica da programação ótima. 

Dizemos que um conjunto 4 de tarefas é independente se existe uma programação para essas tarefas tal que 
nenhuma tarefa está atrasada. É claro que o conjunto de tarefas adiantadas para uma programação forma um conjunto 


independente de tarefas. Seja 1 o conjunto de todos os conjuntos independentes de tarefas. 
Considere o problema de determinar se um dado conjunto 4 de tarefas é independente. Para t = 0, 1,2,...,n, seja 
NKA4) o número de tarefas em 4 cujo prazo final é t ou mais cedo. Observe que N (4) = O para qualquer conjunto 4. 


Lema 16.12 


Para qualquer conjunto de tarefas 4, as declarações a seguir são equivalentes. 


1. O conjunto 4 é independente. 

2. Parat=0,1,2,...,n, temos N(4) <t. 

3. Seas tarefas em 4 estão programadas em ordem monotonicamente crescente de prazos finais, então nenhuma 
tarefa está atrasada. 


Prova Para mostrar que (1) implica (2), provamos o contraposítivo: se N (4) > t para algum t, então não existe nenhum 
modo de fazer uma programação sem nenhuma tarefa atrasada para o conjunto 4 porque mais de 1 tarefas devem 
terminar antes do tempo t. Por essa razão, (1) implica (2). Se (2) é válida, então (3) deve ser válida: não existe nenhum 
modo de “ficarmos emperrados” quando programamos tarefas em ordem monotonicamente crescente de prazos finais, 
já que (2) implica que o i-ésimo maior prazo final é no mínimo i. Finalmente, (3) implica trivialmente (1). 


Usando a propriedade 2 do Lema 16.12, podemos calcular facilmente se um dado conjunto de tarefas é 
independente ou não (veja o Exercício 16.5-2). 

O problema de minimizar a soma das multas por tarefas atrasadas é igual ao problema de maximizar a soma das 
multas das tarefas adiantadas. Assim, o teorema a seguir assegura que podemos usar o algoritmo guloso para encontrar 
um conjunto independente 4 de tarefas com a multa total máxima. 


Teorema 16.13 


Se S é um conjunto de tarefas de tempo unitário com prazos finais e se I é o conjunto de todos os conjuntos de tarefas 
independentes, então o sistema correspondente (S, 1) é um matroide. 


Prova Todo subconjunto de um conjunto independente de tarefas certamente é independente. Para provar a 
propriedade de troca, suponha que B e 4 sejam conjuntos de tarefas independentes e que |B| > |4). Seja k o maior t tal 
que N(B) < N(A). (Tal valor de t existe, já que N(4) = NB) = 0.) Como N (B) = |B/e N (A) = |4|, mas |B| > |4), 
devemos ter que k <n e que N(B) > N(A) para todo j na faixa k + | <j <n. Portanto, B contém mais tarefas com 
prazo final k + 1 do que 4. Seja ai uma tarefá em B — 4 com prazo finalk + 1. Seja 4'=A4 U ta). 


Agora, mostraremos que 4” deve ser independente, usando a propriedade 2 do Lema 16.12. Para O < 1 < k, temos 
NXA” = NKX4) < t, Já que 4 é independente. Para k < t < n, temos N(A? < N(B) < t, já que B é independente. 
Portanto, 4” é independente, o que conclui nossa prova de que (S, 1) é um matroide. 


Pelo Teorema 16.11, podemos usar um algoritmo guloso para encontrar um conjunto independente de peso 
máximo de tarefas 4. Então, podemos criar uma programação ótima na qual as tarefas em 4 sejam suas tarefas 
adiantadas. Esse método é um algoritmo eficiente para programação de tarefas de tempo unitário com prazos finais e 
multas para um único processador. O tempo de execução é O(n,) utilizando Greeny, já que cada uma das O(n) 
verificações de independência feitas por esse algoritmo demora o tempo O(n) (veja o Exercício 16.5-2). O Problema 
16-4 dá uma implementação mais rápida. 


| 


Tarefa 


Figura 16.7 Uma instância do problema de programar tarefas de tempo unitário com prazos finais e multas para um único processador. 


A Figura 16.7 demonstra um exemplo do problema de programação de tarefas de tempo unitário com prazos finais 
e multas para um único processador. Nesse exemplo, o algoritmo guloso seleciona as tarefas a,, a,, a, e a, em ordem, 
depois rejeita a, (porque N((a,, a,, a; a, as;) = 5) e a, (porque N4((a,, a,, a, a, aç)) = 5), e finalmente aceita a 
tarefa a,. A programação final ótima é 


Msoilhis Bjs Bo aadads 


que incorre em uma multa total de w, + w, = 50. 


Exercícios 


16.5-1 Resolva a instância do problema de programação dado na Figura 16.7, mas substitundo cada multa w, por 80 
= W;. 


16.5-2 Mostre como usar a propriedade 2 do Lema 16.12 para determinar no tempo O(|4|) se um dado conjunto 4 
de tarefas é independente ou não. 


Problemas 
16-1 Troco em moedas 


Considere o problema de dar troco para n centavos usando o menor número de moedas. Suponha que o 
valor de cada moeda seja um inteiro. 


a. Descreva um algoritmo guloso para dar um troco utilizando moedas de 25 centavos, 10 centavos, 5 
centavos e 1 centavo. Prove que seu algoritmo produz uma solução ótima. 


b. Suponha que as moedas disponíveis estejam nas denominações que são potências de c, isto é, as 
denominações são co, ci, ..., cr para alguns inteiros c > 1 e k > 1. Mostre que o algoritmo guloso 
sempre produz uma solução ótima. 


c. Dê um conjunto de denominações de moedas para o qual o algoritmo guloso não produz uma solução 
ótima. Seu conjunto deve incluir um centavo, de modo que exista uma solução para todo valor de n. 


d. Dê um algoritmo de tempo O(nk) que dê o troco para qualquer conjunto de k denominações diferentes 
de moeda, considerando que uma das moedas é 1 centavo. 


16-2 


16-3 


Programação para minimizar o tempo médio de conclusão 


Suponha que você tenha um conjunto S = (a,, a,, ..., a) de tarefas, no qual a tarefa a, requeira p, unidades 
de tempo de processamento para ser concluída, desde que seja iniciada. Você tem um computador no qual 
executar essas tarefas, e o computador só pode executar uma tarefa por vez. Seja c,o tempo de conclusão 
da tarefà a,, isto é, o tempo no qual o processamento da tarefa a, é concluído. Sua meta é minimizar o tempo 
= ; cuia cio RR ao a 

médio de conclusão, ou seja, minimizar 1 +, Por exemplo suponha que haja duas tarefas, a, € a,, 
comp, =3 ep,= 5, e considere a programação na qual a, é executada primeiro, seguida por a,. Então, c, = 
5,c,=8, e o tempo médio de conclusão é (5 + 8)/2 = 6,5. Todavia, se a tarefa a, for executada primero, c, 
=3,c,=8,e o tempo médio de conclusão é (3 + 8)2 = 5,5. 


a. Dê umaleoritmo que programe as tarefas de modo a minimizar o tempo médio de conclusão. Cada tarefa 
deve ser executada de modo não preemptivo, isto é, uma vez iniciada a tarefã a;, ela deve ser executada 
continuamente durante p; unidades de tempo. Prove que seu algoritmo minimiza o tempo médio de 
conclusão e informe o tempo de execução do seu algoritmo. 


b. Suponha agora que as tarefas não estejam todas disponíveis ao mesmo tempo. Isto é, nenhuma tarefa 
pode começar antes de seu tempo de liberação r;. Suponha também que permitimos a preempção, de 
modo que uma tarefa pode ser suspensa e reiniciada mais tarde. Por exemplo, uma tarefa a, com tempo 
de processamento p, = 6 e tempo de liberação ri = 1 poderia iniciar sua execução no tempo 1 e ser 
suspensa no tempo 4. Então, ela poderia recomeçar no tempo 10, mas ser suspensa no tempo 11 e, por 
fim, recomeçar no tempo 13 e concluir no tempo 15. A tarefa a, é executada durante um total de seis 
unidades de tempo, mas seu tempo de execução foi dividido em três partes. Com isso, o tempo de 
conclusão de a, é 15. Dê um algoritmo que programe as tarefas de modo a minimizar o tempo médio de 
conclusão nesse novo cenário. Prove que seu algoritmo minimiza o tempo médio de conclusão e informe 
o tempo de execução do seu algoritmo. 


>Subgrafos acíclicos 


a. Amatriz de incidência para um grafo não dirigido G = (V, E) é uma matriz |V] - |E| M tal que Me = 1 
se a aresta e incidir no vértice v; caso contrário, Me = O. Mostre que um conjunto de colunas de M é 
linearmente independente no corpo dos inteiros módulo 2 se e somente se o conjunto correspondente de 
arestas é acíclico. Então, use o resultado do Exercício 16.4-2 para dar uma prova alternativa de que (E, 
D) da parte (a) é um matroide. 


b. Suponha que associamos um peso não negativo w(e) a cada aresta em um grafo não dirigido G = (V, E). 
Dê um algoritmo eficiente para encontrar um subconjunto acíclico de E de peso total máximo. 


c. Seja G(V, E) um grafo dirigido arbitrário e seja (E, 1) definido de tal modo que A E se e somente se 4 
não contém nenhum ciclo dirigido. Dê um exemplo de um grafo dirigido G tal que o sistema associado (E, 
I) não seja um matroide. Especifique qual condição de definição para um matroide deixa de ser válida. 


d. Amatriz de incidência para um grafo dirigido G = (V, E) sem nenhum laço é uma matriz|V|x|E| M tal 
que M = — 1 se a aresta e sai do vértice v, Me = 1 se a aresta e entra no vértice v e Me = O em 
qualquer outro caso. Mostre que, se um conjunto de colunas de M é linearmente independente, o 
conjunto correspondente de arestas não contém um ciclo dirigido. 


e O Exercício 16.4-2 nos diz que o conjunto de conjuntos linearmente independentes de colunas de 
qualquer matriz M forma um matroide. Explique cuidadosamente por que os resultados das partes (c) e 


16-4 


16-5 


(d) não são contraditórios. Como poderia deixar de haver uma perfeita correspondência entre a noção de 
que um conjunto de arestas é acíclico e a noção de que um conjunto associado de colunas da matriz de 
incidência é linearmente independente? 


Variações de programação 


Considere o algoritmo a seguir para resolver o problema da Seção 16.5 de programar tarefas de tempo 
unitário com prazos finais e multas. Sejam todos os n intervalos de tempo inicialmente vazios, onde um 
intervalo de tempo i é o intervalo de tempo de comprimento unitário que termma no tempo i. Consideramos as 
tarefas em ordem monotonicamente decrescente de multa. Quando consideramos a tarefa a,, se existir um 
intervalo de tempo no prazo final d; de a, ou antes dele que amda esteja vazio, atribua a, a tal intervalo mais 
recente, preenchendo-o. Se tal intervalo de tempo não existir, atribua a tarefa a, ao intervalo de tempo mais 
recente ainda não preenchido. 


a. Mostre que esse algoritmo sempre dá uma resposta ótima. 


b. Use a floresta rápida de conjuntos disjuntos apresentada na Seção 21.3 para implementar o algoritmo 
eficientemente. Considere que o conjunto de tarefas de entrada já esteja ordenado em ordem 
monotonicamente decrescente de multa. Analise o tempo de execução de sua implementação. 


Caching Offline 


Computadores modernos usam uma cache para armazenar uma pequena quantidade de dados em memória 
rápida. Embora um programa possa acessar grande quantidade de dados, armazenar um pequeno 
subconjunto da memória principal na cache — uma memória pequena, porém rápida — pode resultar em 
grande redução do tempo de acesso global. Quando executado, um programa de computador faz uma 
sequência (7,,1,,...,7,) de n solicitações à memória, e cada uma dessas solicitações é para um determinado 
elemento de dados. Por exemplo, um programa que acessa 4 elementos distintos fa, b, c, dt poderia fazer a 
sequência de solicitações (d, b, d, b, d,a, c, d, b, a, c, b). Seja k o tamanho da cache. Quando ela contém k 
elementos e o programa solicita o (k + 1)-ésimo elemento, o sistema tem de decidir, para essa solicitação e 
para cada uma das solicitações subsequentes, quais k elementos manter na cache. Mais exatamente, para 
cada solicitação r;, o algoritmo de gerenciamento de cache verifica se o elemento r; já está na cache. Se está, 
temos uma presença na cache; senão, temos uma ausência da cache. Quando ocorre uma ausência da 
cache, o sistema retira r, da memória principal e o algoritmo de gerenciamento da cache deve decidir se 
mantém r, na cache. Se decidir manter r, e a cache já contiver k elementos, o algoritmo tem de excluir um 
elemento para dar lugar a r,. O algoritmo de gerenciamento da cache exclui dados com o objetivo de 
minimizar o número de ausências da cache para a seção de solicitações inteira. 


Normalmente, caching é um problema on-line. Isto é, temos de tomar decisões sobre quais dados manter na 
cache sem conhecer as solicitações futuras. Entretanto, aqui, consideramos a versão off-line desse problema, 
na qual temos de antemão toda a sequência de n solicitações e o tamanho da cache k, e desejamos minimizar 
o número total de ausências da cache. 


Podemos resolver esse problema ofE-line por uma estratégia gulosa denominada futuro mais longínquo, que 
escolhe excluir o ítem presente na cache cujo próximo acesso na sequência de solicitações ocorre no futuro 
mais longínquo. 


a. Escreva pseudocódigo para um gerenciador de cache que usa a estratégia do futuro mais longínquo. A 
entrada deve ser uma sequência <ri, 12, ..., r> de solicitações e um tamanho de cache k; a saída deve ser 
uma sequência de decisões sobre qual elemento de dado (se houver algum) eliminar a cada solicitação. 


Qual é o tempo de execução do seu algoritmo? 
b. Mostre que o problema de caching off-line exibe subestrutura ótima. 


c. Prove que a estratégia futuro mais longínquo produz o menor número possível de ausências da cache. 


NorTas DO CAPÍTULO 


Uma quantidade muito maior de material sobre algoritmos gulosos e matroides pode ser encontrada em Lawler 
[224] e em Papadimitriou e Steiglitz [271]. 

O algoritmo guloso apareceu pela primeira vez na literatura de otimização combinatória em um artigo de 1971 por 
Edmonds [101], embora a teoria de matroides date de um artigo de 1935 por Whitney [355]. 

Nossa prova da correção do algoritmo guloso para o problema de seleção de atividades se baseia na de Gavril 
[131]. O problema de programação de tarefas é estudado em Lawler [224], Horowitz, Sahni e Rajasekaran [181]; e 
Brassard e Bratley [55]. 

Os códigos de Huffman foram criados em 1952 [185]; Lelewer e Hirschberg [231] pesquisaram técnicas de 
compressão de dados conhecidas desde 1987. 

Uma extensão da teoria de matroides para a teoria de guloides ( greedoids, em inglês) teve como pioneiros Korte 
e Lovász [216, 217, 218, 219], que generalizam bastante a teoria apresentada aqui. 


| Às vezes, nos referimos aos conjuntos S como subproblemas em vez de apenas conjuntos de atividades. Sempre ficará claro pelo 
contexto se estamos nos referindo a S+ como um conjunto de atividades ou como um subproblema cuja entrada é aquele conjunto. 

2 Como o pseudocódigo toma s e fcomo arranjos, é indexado a eles comchaves em vez de subscritos. 

3 Talvez “códigos livres de prefixo” fosse um nome melhor, mas a expressão “códigos de prefixo” é padrão na literatura. 


] 7 ANÁLISE AMORTIZADA 


Em uma análise amortizada, calculamos a média do tempo requerido para executar uma sequência de operações 
de estruturas de dados em todas as operações executadas. Com análise amortizada, podemos mostrar que o custo 
médio de uma operação é pequeno, se calculada a média de uma sequência de operações, ainda que uma única 
operação dentro da sequência possa ser custosa. A análise amortizada é diferente da análise do caso médio porque não 
envolve probabilidade; uma análise amortizada garante o desempenho médio de cada operação no pior caso. 

As três primeiras seções deste capítulo abordam as três técnicas mais comuns usadas em análise amortizada. A 
Seção 17.1 começa com a análise agregada, na qual determinamos um limite superior T(n) para o custo total de uma 
sequência de n operações. Depois, o custo amortizado por operação é T(n)/n. Adotamos o custo médio como o custo 
amortizado de cada operação, de modo que todas as operações têm o mesmo custo amortizado. 

A Seção 17.2 focaliza o método de contabilidade, no qual determinamos um custo amortizado de cada operação. 
Quando há mais de um tipo de operação, cada tipo de operação pode ter um custo amortizado diferente. O método de 
contabilidade cobra a mais por algumas operações no início da sequência e armazena essa quantia a mais como “crédito 
pré-pago” para objetos específicos na estrutura de dados. Mais adiante na sequência, o crédito paga operações que 
foram cobradas a menor que seu custo real. 

A Seção 17.3 discute o método do potencial, que é semelhante ao método de contabilidade no sentido de que 
determinamos o custo amortizado de cada operação e podemos cobrar a mais por operações no início para mais tarde 
compensar cobranças a menor. O método do potencial mantém o crédito como a “energia potencial” da estrutura de 
dados como um todo, em vez de associar o crédito a objetos individuais dentro da estrutura de dados. 

Usaremos dois exemplos para exammar esses três métodos. Um é uma pilha com a operação adicional Muzmror, 
que retira de uma pilha vários objetos de uma vez. O outro é um contador binário que conta a partir de O por meio da 
operação isolada IncremenT. 

Ao ler este capítulo, tenha em mente que as cobranças atribuídas durante uma análise amortizada servem apenas 
para a análise. Elas não precisam — e não devem — aparecer no código. Se, por exemplo, atribuirmos um crédito a 
um objeto x quando usamos o método de contabilidade, não precisamos atribuir um valor adequado a algum atributo no 
código, tal como x.crédito. Muitas vezes a análise amortizada nos dá uma certa percepção de uma determinada 
estrutura de dados e essa percepoção pode nos ajudar a otimizar o projeto. Na Seção 177.4, por exemplo, usaremos o 
método do potencial para analisar uma tabela que se expande e se contrai dinamicamente. 


17.1 ANÁLISE AGREGADA 


Em análise agregada, mostramos que, para todo n, uma sequência de n operações demora o tempo do pior 
caso T(n) no total. Portanto, no pior caso, o custo médio, ou custo amortizado, por operação é T(n)/n. Observe que 
esse custo amortizado se aplica a cada operação, mesmo quando há vários tipos de operações na sequência. Os outros 
dois métodos que estudaremos neste capítulo, o método de contabilidade e o método do potencial, podem atribuir 
custos amortizados diferentes a tipos de operações diferentes. 


Operações de pilha 


Em nosso primeiro exemplo de análise agregada, analisamos pilhas que foram aumentadas com uma nova 
operação. A Seção 10.1 apresentou as duas operações fundamentais de pilha, cada uma das quais demora o tempo 
o(I): 


Pusu(S, x) insere o objeto x sobre a pilha S. 
Por(S) retira o topo da pilha S e retorna o objeto retirado da pilha. Chamar Por em uma pilha vazia gera um erro. 


Visto que cada uma dessas operações é executada no tempo O(1), vamos considerar o custo de cada uma igual a 
1. Então, o custo total de uma sequência de n operações Pusn € Por é n e, por consequência, o tempo de execução real 
para n operações é Q(n). 

Agora acrescentamos a operação de pilha Murmror(S, k) que remove os k objetos no topo da pilha S ou a pilha 
inteira se ela contiver menos de k objetos. Claro que tomaremos k positivo; senão, a operação Muzrror deixaria a pilha 
como está. No pseudocódigo a seguir, a operação Srack-Empry retorna Trur se não há nenhum objeto na pilha no 
momento considerado, caso contrário retorna FaLsE. 


Muzripor(S k) 

1 while not STACK-EMPTY(S) e k > O 
2 Por(S) 

E k=k-—1 


A Figura 17.1 mostra um exemplo de Muznror. 

Qual é o tempo de execução de Muzmror(S, k) em uma pilha de s objetos? O tempo de execução real é linear em 
relação ao número de operações Por realmente executadas e, assim, podemos analisar Murriror considerando o custo 
abstrato de 1 para cada uma das operações Pusn e Por. O número de iterações do laço while é o número min(s, k) de 
objetos retirados da pilha. Cada iteração do laço faz uma chamada a Por na linha 2. Assim, o custo total de Munror é 
min(s, k) e o tempo de execução real é uma função linear desse custo. 

Vamos analisar uma sequência de n operações Pusn, Por e MuLnror em uma pilha inicialmente vazia. O custo do 
pior caso de uma operação Murnror na sequência é O(n), já que o tamanho da pilha é no máximo n. Portanto, o tempo 
do pior caso de qualquer operação de pilha é O(n) e, consequentemente, uma sequência de n operações custa O(n,), já 
que podemos ter O(n) operações Murrror custando O(n) cada uma. Embora essa análise esteja correta, o resultado 
O(n,) que obtivemos considerando o custo do pior caso de cada operação individual não é preciso. 
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Figura 17.1 A ação de Murriror em uma pilha S, mostrada inicialmente em (a). Os quatro objetos no topo são retirados por Murriror(S, 
4), e o resultado é mostrado em (b). A próxima operação é Murrrror(S, 7), que esvazia a pilha — mostrada em (c) —, já que restam menos 
de sete objetos. 


Usando análise agregada, podemos obter um limite superior melhor que considera a sequência inteira de n 
operações. De fato, embora uma única operação MuLnror possa ser custosa, qualquer sequência de n operações Pusn, 
Por e MuLmiror em uma pilha inicialmente vazia custará no máximo O(n). Por quê? Podemos retirar cada objeto de uma 
pilha no máximo uma vez para cada vez que o inserimos na pilha. Portanto, o número de vezes que Por pode ser 
chamada em uma pilha não vazia, incluídas as chamadas dentro de Murnror, é no máximo o número de operações Pusn, 
que é no máximo n. Para qualquer valor de n, qualquer sequência de n operações Pusm, Por é MuLmror demora o tempo 
total O(n). O custo médio de uma operação é O(n)/n = O(1). Em análise agregada, o custo amortizado atribuído a cada 
operação é o custo médio. Portanto, nesse exemplo todas as três operações de pilha têm um custo amortizado de O(1). 

Destacamos novamente que, embora tenhamos acabado de mostrar que o custo médio, e consequentemente o 
tempo de execução, de uma operação de pilha é O(1), não usamos raciocínio probabilístico. Na realidade, mostramos 
um limite de pior caso O(n) em uma sequência de n operações. Dividindo esse custo total por n temos o custo médio 
por operação, ou o custo amortizado. 


Incrementar um contador binário 


Como outro exemplo de análise agregada, considere o problema de implementar um contador binário de k bits que 
efetua contagem crescente a partir de O. Usamos como contador um arranjo A[O .. k — 1] de bits, onde 
A.comprimento = k. Um número binário x que é armazenado no contador tem seu bit de ordem mais baixa em 4[0] e 

| | o FP ADA o 
seu bit de ordem mais alta em 4[k — 1], de modo que x = i=0 . Inicialmente x = O e assim A[i] = O para i 
=01...k-— 1. Para somar 1 (módulo 2%) ao valor do contador, utilizamos o seguinte procedimento: 


INCREMENT(A) 

1 i=0 

2 while 1 < A.comprimento e A[i] = 1 
5) Ai] = 0 

4 i=141 

5 if 1 < A.comprimento 

6 AfiJ=1 


A Figura 17.2 mostra o que acontece a um contador binário quando o incrementamos 16 vezes, começando com o 
valor inicial O e terminando com o valor 16. No início de cada iteração do laço while nas linhas 2-4, desejamos 
adicionar um 1 na posição i. Se Ali] = 1, então a adição de 1 inverte o bit para O na posição i e produz varum de 1, 
que será somado na posição i + 1 na próxima iteração do laço. Caso contrário, o laço termina e então, se i < k, 
sabemos que A[i] = 0, de modo que a linha 6 adiciona um 1 na posição i, invertendo o bit de O para 1. O custo de cada 
operação Incremenr é linear em relação ao número de bits invertidos. 

Como ocorre no exemplo da pilha, uma análise superficial produz um limite que é correto mas não preciso. Uma 
única execução de Increment demora o tempo Q(k) no pior caso, no qual o arranjo 4 contém somente Is. Portanto, 
uma sequência de n operações Increment em um contador inicialmente igual a zero demora o tempo O(nk) no pior caso. 

Podemos restringir nossa análise para produzir um custo de pior caso O(n) para uma sequência de n operações 
IncreMENT Observando que nem todos os bits são invertidos toda vez que Incremenr é chamada. Como mostra a Figura 
17.2, A[0] é mvertido toda vez que Incremenr é chamada. O bit de ordem mais alta seguinte, 4[1], só é invertido em 
vezes alternadas: uma sequência de n operações Increment em um contador que é inicialmente zero faz A[1] inverter 


n/2 vezes. De modo semelhante, o bit 4[2] é invertido somente de quatro em quatro vezes ou n/4 vezes em uma 
sequência de n operações Incremenr. Em geral, para i=0,1,...,k-— 1,0 bit Aflil é invertido n/2i vezes em uma 
sequência de n operações IncremENT em um contador que inicialmente é zero. Para i > k, o bit A[i] não existe, portanto 
não pode ser invertido. Assim, o número total de inversões na sequência é 
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Figura 17.2 Umcontador binário de 8 bits à medida que seu valor vai de 0 a 16 por uma sequência de 16 operações increMenr. Bits que 
são invertidos para chegar ao próximo valor estão sombreados. O custo a inversão de bits é mostrado à direita. 
Observe que o custo total é sempre menor que duas vezes o número total de operações increMENnT 
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pela equação (A.6). Portanto, o tempo do pior caso para uma sequência de n operações Incre-menr em um contador 
inicialmente igual a zero é O(n). O custo médio de cada operação e, portanto, o custo amortizado por operação, é 
O(n)/n = O(1). 


Exercícios 


17.1-1 Seo conjunto de operações de pilha incluísse uma operação Muzmrusn, que introduz k itens na pilha, o limite 
O(1) para o custo amortizado de operações de pilha continuaria válido? 


17.1-2 Mostre que, se uma operação Decremenr fosse incluída no exemplo do contador de k bits, n operações 
poderiam custar até o tempo Q(nk). 


17.1-3 Suponha que executamos uma sequência de n operações em uma estrutura de dados na qual a i-ésima 
operação custa i, se i é uma potência exata de 2, e 1 em caso contrário. Utilize a análise agregada para 
determinar o custo amortizado por operação. 


17.2 (OméroDO DE CONTABILIDADE 


No método da contabilidade de análise amortizada, atribuímos cobranças diferentes a operações diferentes, 
sendo que algumas operações são cobradas a mais ou a menos do que realmente custam. Denominamos custo 
amortizado o valor que cobramos por uma operação. Quando o custo amortizado de uma operação excede seu custo 
real, atribuímos a diferença a objetos específicos na estrutura de dados como crédito. Mais adiante, o crédito pode 
ajudar a pagar operações posteriores cujo custo amortizado é menor que seu custo real. Assim, podemos considerar o 
custo amortizado de uma operação como repartido entre seu custo real e o crédito que é depositado ou consumido. 
Esse método é muito diferente da análise agregada, na qual todas as operações têm o mesmo custo amortizado. 

Devemos escolher os custos amortizados de operações cuidadosamente. Se quisermos mostrar que, no pior caso, 
o custo médio por operação é pequeno por análise com custos amortizados, temos de assegurar que o custo 
amortizado total de uma sequência de operações dá um limite superior para o custo real total da sequência. Além disso, 
como ocorre na análise agregada, essa relação deve se manter válida para todas as sequências de operações. Se 
denotarmos o custo real da i-ésima operação por c, e o custo amortizado da i-ésima operação por c”;, exigiremos 


558 >>e (17.1) 
i=1 i=1 


para todas as sequências de n operações. O crédito total armazenado na estrutura de dados é a diferença entre o custo 


amortizado total e o custo real total ou Dis = Duas, * Pela desigualdade (17.1), o crédito total associado à estrutura 
de dados deve ser não negativo em todos os momentos. Se alguma vez permitissemos que o crédito total se tornasse 
negativo (o resultado de cobrar a menos por operações anteriores com a promessa de reembolsar a quantia mais 
tarde), então os custos amortizados totais incorridos naquele momento estariam abaixo dos custos reais totais 
incorridos; para a sequência de operações até aquele mesmo momento, o custo amortizado total não seria um limite 
superior para custo real total Assim, devemos cuidar para que o crédito total na estrutura de dados nunca se torne 
negativo. 


Operações de pilha 


Para ilustrar o método de contabilidade de análise amortizada, vamos voltar ao exemplo da pilha. Lembre-se de 
que os custos reais das operações eram 


PusH 
Por A 
MULTIPOP min(k,s), 


onde k é o argumento fornecido a MuLnror € s é o tamanho da pilha quando ela é chamada. Vamos atribuir os seguintes 
custos amortizados: 


PusH 2. 


Por O, 
MULTIPOP O. 


Observe que o custo amortizado de Murnror é uma constante (0), enquanto o custo real é variável. Aqui, todos os 
três custos amortizados são constantes. Em geral, os custos amortizados das operações sob consideração podem ser 
diferentes um do outro e até mesmo assintoticamente diferentes. 

Agora mostraremos que é possível pagar qualquer sequência de operações de pilha debitando dos custos 
amortizados. Suponha que usamos uma nota de um real para representar cada unidade de custo. Começamos com uma 
pilha vazia. Lembre-se da analogia da Seção 10.1 entre a estrutura de dados de pilha e uma pilha de pratos em um 
restaurante. Quando introduzimos um prato na pilha, usamos 1 real para pagar o custo propriamente dito do 
empilhamento e ficamos com um crédito de 1 real (além dos 2 reais cobrados), que deixamos em cima do prato. Em 
qualquer instante, há um real de crédito em cima de cada prato na pilha. 

O real guardado no prato serve como pagamento prévio do custo de retirá-lo da pilha. Quando executamos uma 
operação Por, não cobramos nada por ela e pagamos seu custo real usando o crédito armazenado na pilha. Para retirar 
um prato da pilha, tomamos o real de crédito do prato e o utilizamos para pagar o custo real da operação. Assim, 
cobrando um pouco mais pela operação Pusn, não precisamos cobrar nada pela operação Por. 

Além disso, também não precisamos cobrar nada por operações Muzrror. Para retirar o primeiro prato da pilha, 
tomamos o real de crédito do prato e o utilizamos para pagar o custo propriamente dito de uma operação Por. Para 
retirar um segundo prato, temos novamente um real de crédito no prato para pagar a operação Por, e assim 
sucessivamente. Então, sempre cobramos antecipadamente o suficiente para pagar operações Muzmror. Em outras 
palavras, visto que cada prato na pilha tem 1 real de crédito e a pilha sempre tem um número não negativo de pratos, 
asseguramos que a quantia que temos de crédito é sempre não negativa. Assim, para qualquer sequência de n 
operações PusH, Por € MuLrror, O custo amortizado total é um limite superior para o custo real total. Visto que o custo 
amortizado total é O(n), também é esse o custo real total. 


Incrementar um contador binário 


Como outra ilustração do método de contabilidade, analisamos a operação Increment em um contador binário que 
começa em zero. Conforme observamos antes, o tempo de execução dessa operação é proporcional ao número de bits 
invertidos, que usaremos como nosso custo para esse exemplo. Vamos utilizar uma vez mais uma nota de 1 real para 
representar cada unidade de custo (a inversão de um bit nesse exemplo). 

No caso da análise amortizada, vamos cobrar um custo amortizado de 2 reais para atribuir um bit com 1 (ligar). 
Quando um bit é ligado, usamos 1 real (dos 2 reais cobrados) para pagar a própria configuração do bit e colocamos o 
outro real no bit como crédito para ser usado mais tarde quando convertermos o bit de volta para O. Em qualquer 


instante, todo 1 no contador tem um real de crédito e, assim, não precisamos cobrar nada para desligar um bit apenas 
pagamos o desligamento com a nota de realno bit. 

Agora podemos determinar o custo amortizado de Incremenr. O custo de desligar os bits dentro do laço while é 
pago pelos reais nos bits que são desligados. O procedimento Incremenr liga no máximo um bt, na linha 6 e, portanto, o 
custo amortizado de uma operação Increment é no máximo 2 reais. A quantidade de Is no contador nunca se torna 
negativa e, portanto, a quantia de crédito permanece não negativa o tempo todo. Assim, para n operações Incremenr, O 
custo amortizado total é O(n), o que limita o custo real total. 


Exercícios 


17.2-1 Suponha que executamos uma sequência de operações de pilha em uma pilha cujo tamanho nunca excede k. 
Após cada k operações, fazemos uma cópia da pilha inteira como backup. Mostre que o custo de n 
operações de pilha, inclundo copiar a pilha, é O(n) atribundo custos amortizados adequados às várias 
operações de pilha. 


17.2-2 Faça novamente o Exercício 17.1-3, usando um método de análise da contabilidade. 


17.2-3 Suponha que desejamos não apenas incrementar um contador, mas também reimicializá-lo em zero (isto é, 
fazer com que todos os seus bits sejam 0). Contando como Q(1), o tempo para examinar ou modificar um bit, 
mostre como implementar um contador como um arranjo de bits de modo tal que qualquer sequência de n 
operações IncrementE Reserdemore o tempo O(n) em um contador inicialmente em zero. (Sugestão: 
Mantenha um ponteiro para o valor 1 de ordem mais alta.) 


17.3 (OméroDo DO POTENCIAL 


Em vez de representar o trabalho pago antecipadamente como crédito armazenado por objetos específicos na 
estrutura de dados, o método do potencial de análise amortizada representa o trabalho pago antecipadamente como 
“energia potencial” ou apenas “potencial”, que pode ser liberado para pagamento de operações futuras. Associamos o 
potencial à estrutura de dados como um todo, em vez de associá-lo a objetos específicos dentro da estrutura de dados. 

O método do potencial funciona da maneira descrita a seguir. Executaremos n operações, começando com uma 
estrutura de dados inicial D, Para cada i = 1,2, ..., n, seja c, o custo real da i-ésima operação e seja D, a estrutura de 
dados que resulta após a aplicação da i-ésima operação à estrutura de dados D,—1. Uma função potencial | mapeia 
cada estrutura de dados D, para um número real (D;), que é o potencial associado à estrutura de dados D,. O custo 
amortizado da i-ésima operação referente à função potencial é definido por 


2 =c+HD)-HD, |). (17.2) 


Então, o custo amortizado de cada operação é seu custo real mais a mudança no potencial devido à operação. 
Pela equação (17.2), o custo amortizado total das n operações é 


n n 


= 5 (c+HD)-D ) 


sa +D )-&D ). (17.3) 
i=1 


A segunda igualdade decorre da equação (A.9) porque os termos (D;) se cancelam. 


Se pudermos definir uma função potencial de tal modo que (D) > (D,), então o custo amortizado total 


n A n 
36 cá. 
i=1 1 dá um limite superior para o custo real total i=1 1. Na prática, nem sempre sabemos 
quantas operações poderiam ser executadas. Portanto, se exigimos que (D)) > (D,) para todo i, então garantimos, 
como no método da contabilidade, que pagamos antecipadamente. Normalmente apenas definimos (D,) como O e 
então mostramos que (D;) > O para todo i. (Veja no Exercício 17.3-1 um modo fácil para tratar os casos nos quais 
(Do) 0.) 

Intuitivamente, se a diferença de potencial (D;) — (D-—1) da i-ésima operação é positiva, o custo amortizado 
representa uma cobrança a mais para a i-ésima operação, e o potencial da estrutura de dados aumenta. Se a diferença 
de potencial é negativa, o custo amortizado representa uma cobrança a menos para a i-ésima operação, e a redução no 
potencial paga o custo real da operação. 

Os custos amortizados definidos pelas equações (17.2) e (17.3) dependem da escolha da função potencial . 
Diferentes funções potenciais podem produzir custos amortizados diferentes e ainda assim serem limites superiores para 
os custos reais. Muitas vezes constatamos que podemos fazer permutas quando escolhemos uma função potencial; a 
melhor função potencial a utilizar depende dos limites de tempo desejados. 


Operações de pilha 


Para ilustrar o método do potencial, retornamos mais uma vez ao exemplo das operações de pilha Pusn, Por e 
Muznror. Definimos a função potencial em uma pilha como o número de objetos na pilha. Para a pilha vazia D, com a 
qual começamos, temos (D,) = 0. Como o número de objetos na pilha nunca é negativo, a pilha D, que resulta após a i- 
ésima operação tem potencial não negativo e, assim, 


DD) > 0 
= PD). 
Portanto, o custo amortizado total de n operações em relação a representa um limite superior para o custo real. 


Agora vamos calcular os custos amortizados das várias operações de pilha. Se a i-ésima operação em uma pilha 
que contém s objetos é uma operação Pusn, a diferença de potencial é 


D(D)- DD ) = (s+1)-s 
= La 
Pela equação (17.2), o custo amortizado dessa operação PusH é 
Cc = c+H+AD)-HD, |) 
= Il 
= do 


Suponha que a i-ésima operação na pilha seja Murrro(S, k), o que resulta na retirada de k" = min(k, s) objetos da 
pilha. O custo real da operação é k”, e a diferença de potencial é 
D(D)- DD )=-K. 


i i—1 


Assim, o custo amortizado da operação Muznror é 


é = c+HD)-D |) 
= k'—k 
ed), 
De modo semelhante, o custo amortizado de uma operação Por comum é 0. 
O custo amortizado de cada uma das três operações é O(1) e, por isso, o custo amortizado total de uma sequência 


de n operações é O(n). Visto que já demonstramos que (D;)) > (D,), o custo amortizado total de n operações é um 
limite superior para o custo real total. Portanto, o custo do pior caso de n operações é O(n). 


Incrementar um contador binário 


Como outro exemplo do método do potencial, examinamos novamente como incrementar um contador binário. 
Dessa vez, definimos o potencial do contador após a i-ésima operação Incremenr como b,, a quantidade de Is no 
contador após a i-ésima operação. 

Vamos calcular o custo amortizado de uma operação Increment. Suponha que a i-ésima operação IncreMENT 
modifique t, bits. Então, o custo real da operação é no máximo t, + 1, já que, além de modificar t, bits, ela liga no 
máximo um bit. Se b, = 0, então a i-ésima operação modifica todos os k bits, e b—1=t,=k. Se b,> 0, então b, = b—1 
— t,+ 1. Em qualquer dos casos, b,< b—! — t,+ 1, e a diferença de potencial é 


D(D) — DD.) < (Dia = a, E bl 


= i) — ft. é 
1 
Portanto, o custo amortizado é 


é = c+HD)-D |) 
<(L+D+(-t) 
= 


Se o contador começa em zero, então (D,) = 0. Visto que (D;) > O para todo i, o custo amortizado total de uma 
sequência de n operações Incremenr é um limite superior para o custo real total e, assim, o custo do pior caso de n 
operações Incremenr é O(n). 

O método do potencial nos dá um caminho fácil para analisar o contador até mesmo quando ele não começa em 
zero. O contador começa com uma quantidade b, de 1s e, após n operações Incremenr, ele tem uma quantidade b, de 
Is, onde 0 < b,, b, < k. (Lembre-se de que k é o número de bits no contador.) Podemos reescrever a equação (17.3) 
como 


>5=> 8 -HAD)+HD ). (17.4) 
i=1 i=1 


Temos c” <2 paratodo | <i<n. Visto que (D)=be (D)=b,o custo real total de n operações Incremenr É 


Sc < 52-b +, 
i=1 


— 2, + se 


Observe em particular que, como bh, < k, o custo real total é O(n), contanto que k = O(n). Em outras palavras, se 
executarmos no mínimo (k) operações Incremenr, O custo real total será O(n), não importando o valor inicial que o 
contador contém. 


Exercícios 


17.3-1 Suponha que tenhamos uma função potencial tal que (D;) > (D,) para todo i, mas (D;) £ 0. Mostre que existe 
uma função potencial "tal que (D,) = 0, (D;) > O para todo i > 1 e os custos amortizados se usarmos | são 
iguais aos custos amortizados se usarmos . 


17.3-2 Faça novamente o Exercício 17.1-3 usando um método de potencial para a análise. 


17.3-3 Considere uma estrutura de dados de heap de mínimo binário comum com n elementos que suporte as 
instruções Insert E Exrracr-Min no tempo do pior caso Ol(lg n). Dê uma finção potencial tal que o custo 
amortizado de Inserr seja O(lg n) e o custo amortizado de Exrracr-Mnn seja O(1), e mostre que ela funciona. 


17.3-4 Qual é o custo total de executar n das operações de pilha Pusn, Por e Muzmror considerando que a pilha 
começa com s, objetos e termina coms, objetos? 


17.3-5 Suponha que um contador comece em um número que tem a quantidade b de Is em sua representação 
binária, em vez de começar em 0. Mostre que o custo de executar n operações Incremenr é O(n) se n = (b). 
(Não considere b constante.) 


17.3-6 Mostre como implementar uma fila com duas pilhas comuns (Exercício 10.1-6) de modo que o custo 
amortizado de cada operação Enqueur e de cada operação Dequeuz seja O(1). 


17.3-7  Projete uma estrutura de dados para suportar as duas operações a seguir para um multiconjunto dinâmico S 
de inteiros que permite valores duplicados: 


InserT(S, X) insere x no conjunto S. 
DeLete-Larcer-HaLF(S) elimina os |S|/2 maiores elementos de 8. 


Explique como implementar essa estrutura de dados de modo que qualquer sequência de m operações Inserr € 
Dezere-Larcer-Harr seja executada no tempo O(m). Sua implementação deve também incluir um modo de 
obter como saída os elementos de S no tempo O(|S|). 


17.4 TABELAS DINÂMICAS 


Nem sempre sabemos antecipadamente quantos objetos algumas aplicações armazenarão em uma tabela. 
Poderíamos alocar espaço para uma tabela e só mais tarde constatar que tal espaço não é suficiente. Então, teríamos de 
realocar a tabela com um tamanho maior e copiar todos os objetos armazenados na tabela original para a nova tabela 
maior. De modo semelhante, se muitos objetos já foram eliminados da tabela, poderia ser vantajoso realocar tal tabela 
com um tamanho menor. Nesta seção, estudaremos esse problema de expandir e contrair dinamicamente uma tabela. 
Usando a análise amortizada, mostraremos que o custo amortizado das operações de inserção e eliminação é apenas 
O(1), embora o custo real de uma operação seja grande quando ela ativa uma expansão ou uma contração. Além disso, 
veremos como garantir que o espaço não utilizado em uma tabela dinâmica nunca exceda uma fração constante do 
espaço total. Supomos que a tabela dinâmica suporta as operações TapLe-Insert € TaBLE-DeLETE. TABLE-INSERT Insere na 
tabela um item que ocupa uma única posição, isto é, um espaço para um só item. Do mesmo modo, TasLe-DeLeTE 


elimina um item da tabela e por isso libera uma posição. Os detalhes do método de estruturação de dados usado para 
organizar a tabela não são importantes; poderíamos usar uma pilha (Seção 10.1), um heap (Capítulo 6) ou uma tabela 
hash (Capítulo 11). Também poderíamos usar um arranjo ou uma coleção de arranjos para implementar armazenamento 
de objetos, como fizemos na Seção 10.3. 

Veremos que é conveniente utilizar um conceito introduzido em nossa análise do hashing (Capítulo 11). Definimos o 
fator de carga a(T) de uma tabela não vazia T como o múmero de itens armazenados na tabela dividido pelo tamanho 
(número de posições) da tabela. Atribuímos tamanho O a uma tabela vazia (uma tabela sem itens) e definimos seu fator 
de carga como 1. Se o fator de carga de uma tabela dinâmica é limitado por baixo por uma constante, o espaço não 
utilizado na tabela nunca é maior que uma fração constante da quantidade total de espaço. Começamos analisando uma 
tabela dinâmica na qual só inserimos itens. Em seguida consideramos o caso mais geral em que inserimos e eliminamos 
itens. 


17.4.1 EXPANSÃO DE TABELAS 


Vamos supor que o armazenamento para uma tabela seja alocado como um arranjo de posições. Uma tabela está 
cheia quando todas as posições foram usadas ou, o que é equivalente, quando seu fator de carga é 1.1 Em alguns 
ambientes de software, se é feita uma tentativa para inserir um item em uma tabela cheia, a única alternativa é abortar a 
operação com um erro. Porém, levaremos em conta que nosso ambiente de software, como muitos ambientes 
modernos, fornece um sistema de gerenciamento de memória que pode alocar e liberar blocos de armazenamento por 
requisição. Assim, ao inserirmos um ítem em uma tabela cheia, poderemos expandi-la alocando uma nova tabela com 
mais posições que a tabela antiga. Como sempre precisamos que a tabela resida em memória contígua, temos de alocar 
um novo arranjo para a tabela maior e depois copiar tens da tabela antiga para a tabela nova. 

Uma heurística comum aloca uma nova tabela que tenha duas vezes o número de posições da antiga. Se as únicas 
operações de tabela são inserções, então o fator de carga da tabela é sempre no mínimo 1/2 e, assim, a quantidade de 
espaço desperdiçado nunca excede metade do espaço total na tabela. 

No pseudocódigo a seguir, consideramos que T é um objeto que representa a tabela. O atributo T'tabela contém 
um ponteiro para o bloco de armazenamento que representa a tabela, Tinum contém o número de itens na tabela e 
T.tamanho dá o número total de posições na tabela. Inicialmente, a tabela está vazia: Tinum = T.tamanho = 0. 


TABLE-INSERT(T, x) 

| if T.tamanho == O 

2 alocar T.tabela com 1 posição 

3 T.tamanho = 1 

4 if T.num == T.tamanho 

5 alocar nova-tabela com 2 x T.tamanho posições 
6 inserir todos os itens em T.tabela em nova-tabela 
7 liberar T.tabela 

8 T.tabela = nova-tabela 

9 T.tamanho = 2 x T.tamanho 

10 inserir x em T.tabela 

11 Tnum = T.num+1 


Observe que temos dois procedimentos de “inserção” aqui: o procedimento TasLE-Inserr propriamente dito e a 
inserção elementar em uma tabela nas linhas 6 e 10. Podemos analisar o tempo de execução de TapLe-Inserr em 
termos do número de inserções elementares atribuindo um custo iguala 1 para cada inserção elementar. Supomos que o 
tempo de execução real de TasLe-Inserr é linear em relação ao tempo gasto para inserir itens individuais, de modo que a 
sobrecarga de alocação para uma tabela inicial na linha 2 é constante, e a sobrecarga de alocação e liberação de 
armazenamento nas linhas 5 e 7 é dominada pelo custo de transferir itens na linha 6. Denominamos expansão o evento 
no qual as linhas 5-9 são executadas. 


Vamos analisar uma sequência de n operações TasLe-Inserr em uma tabela inicialmente vazia. Qual é o custo c, da 
i-ésima operação? Se há espaço para o novo item na tabela atual (ou se essa é a primeira operação), então c, = 1, visto 
que só precisamos executar a única inserção elementar na linha 10. Entretanto, se a tabela atual está cheia e ocorre uma 
expansão, então c, = i: o custo é 1 para a inserção elementar na linha 10 mais i — 1 para os itens que temos de copiar 
da tabela antiga para a tabela nova na linha 6. Se executarmos n operações, o custo do pior caso de uma operação é 
O(n), o que acarreta um limite superior de O(n,) para o tempo total de execução de n operações. 

Esse limite não é justo porque raramente expandimos a tabela no curso de n operações TaBLE-InserT. 
Especificamente, a i-ésima operação provoca uma expansão somente quando i — 1 é uma potência exata de 2. O custo 
amortizado de uma operação é de fato O(1), como podemos mostrar usando análise agregada. O custo da i-ésima 
operação é 


1 ifi—1 is an exact power of2, 
1 otherwise. 


Portanto, o custo total de n operações TaBLE-Insert é 


n lIgn] 


Dic <n+52 


i=1 j=0 
< n+42n 
= il 


já que no máximo n operações custam 1 e os custos das operações restantes formam uma série geométrica. Visto que o 
custo total de n operações TasLe-Inserr é limitado por 3n, o custo amortizado de uma única operação é, no máximo, 3. 

Usando o método de contabilidade, podemos ter uma ideia do motivo por que o custo amortizado de uma 
operação TasLE-Inserr deve ser 3. Intuitivamente, cada item paga três inserções elementares: a sua própria inserção na 
tabela atual, a sua movimentação quando a tabela é expandida e a modificação de um outro item que já tinha sido 
movido uma vez quando a tabela foi expandida. Por exemplo, suponha que o tamanho da tabela seja m imediatamente 
após uma expansão. Então, a tabela contém m/2 itens e não dispõe de nenhum crédito. Cobramos 3 reais para cada 
inserção. A inserção elementar que ocorre imediatamente custa 1 real. Colocamos um outro real como crédito no item 
inserido. Colocamos o terceiro real como crédito em um dos m/2 itens que já estão na tabela. A tabela só estará cheia 
novamente quando inserirmos outros m/2 — 1 ítens; assim, quando a tabela contiver m itens e estiver cheia, teremos 
colocado um real em cada item para pagar pela sua reinserção durante a expansão. 

Podemos usar o método do potencial para analisar uma sequência de n operações TasLE-InserT E O usaremos na 
Seção 17.4.2 para projetar uma operação TasLe-DeLere, que também tem custo amortizado O(1). Começamos 
definindo uma finção potencial que é igual a O imediatamente após uma expansão, mas que aumenta até chegar no 
tamanho da tabela no momento em que ela está cheia, de modo que podemos pagar a próxima expansão com o 
potencial. A função 


&(T) =2:T.num — T.tamanho (17.5) 


é uma possibilidade. Imediatamente após uma expansão, temos Tnum = Ttamanho/? e, assim, (7) = 0, como 
desejado. Imediatamente antes de uma expansão, temos Tinum — Ttamanho e, assim, (7) = T.num, como desejado. 
O valor inicial do potencial é O e, visto que a tabela está sempre no mínimo metade cheia, Tnum > Ttamanho/2, o que 


implica que (7) é sempre não negativo. Assim, a soma dos custos amortizados de n operações TasLe-Inserre é um limite 
superior para a soma dos custos reais. 

Para analisar o custo amortizado da i-ésima operação TasLe-Inserr, representamos por num, o número de itens 
armazenados na tabela após a i-ésima operação, por tamanho, o tamanho total da tabela após a i-ésima operação, e 
por ' o potencial após a i-ésima operação. Inicialmente, temos num, = 0, tamanho, = 0e 0 =0. 

Se a i-ésima operação TasLe-Inserte não ativa uma expansão, temos tamanho: = tamanho, — 1 e o custo 
amortizado da operação é 


E =t+E-b o 


1 + (2x num, — tamanho) — (2 x num, | — tamanho, ) 
1+ (2 x num, — tamanho) — (2(num, — 1) — tamanho) 
= Du 


I 


Se a i-ésima operação ativa uma expansão, temos tamanho, = 2 x tamanho;— e tamanho,— = 
num —! = num, — 1, o que implica tamanho, = 2 x (num, — 1). Assim, o custo amortizado da operação é 
c = c+h+D-do 

= num,+ (2 x num, — tamanho) — (2 x num, , — tamanho, .) 

= num,+ (2 x num, — 2 x num, — 1)) — (2(num, — 1) — (num, — 1)) 


= num, +2 — (num, — 1) 
= dd. 


A Figura 17.3 mostra a representação gráfica dos valores de num,, tamanho, e i em relação a i. Observe como o 
potencial aumenta para pagar a expansão da tabela. 


| 
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Figura 17.3 Efeito de uma sequência de n operações tagLe-inserr sobre o número numi de itens na tabela, o número tamanho; de 
posições na tabela e o potencial ;=2 x numi— tamanhoi, cada um medido após a i-ésima operação. A linha fina mostra num, a linha 
tracejada mostra tamanho: e a linha grossa mostra ;. Observe que, imediatamente antes de uma expansão, o potencial cresceu até o 
número de itens na tabela e, assim, ele pode pagar a movimentação de todos os itens para a nova tabela. Depois, o potencial cai até 0, 
mas é imediatamente aumentado de 2 quando da inserção do item que causou a expansão. 


17.4.2 EXPANSÃO E CONTRAÇÃO DE TABELAS 


Para implementar uma operação TasLe-Derere, é bastante simples remover o item especificado da tabela. Porém, 
para limitar a quantidade de espaço desperdiçado, seria interessante contrair a tabela quando o fator de carga da 
tabela se tornar demasiadamente pequeno. A contração de tabelas é análoga à expansão: quando o número de itens na 
tabela fica muito baixo, alocamos uma nova tabela menor e, em seguida, copiamos os itens da tabela antiga na tabela 
nova. Então podemos liberar o armazenamento usado para a tabela antiga devolvendo-o ao sistema de gerenciamento 
de memória. No caso ideal, devemos preservar duas propriedades: 


* o fator de carga da tabela dinâmica é limitado por baixo por uma constante. 
* o custo amortizado de uma operação de tabela é limitado por cima por uma constante. 


Consideramos o custo medido em termos de inserções e eliminações elementares. 


Seria natural pensar que devemos dobrar o tamanho da tabela quando um item é inserido em uma tabela cheia e 
reduzi-lo à metade quando a eliminação de um item resulta em uma tabela menos da metade cheia. Essa estratégia 
garantiria que o fator de carga da tabela nunca carria abaixo de 1/2 mas, infelizmente, pode resultar em custo amortizado 
por operação muito grande. Considere o cenário a seguir. Executamos n operações em uma tabela 7, onde n é uma 
potência exata de 2. As primeiras n/2 operações são inserções que, de acordo com nossa análise anterior, têm custo 
total Q(n). Ao final dessa sequência de inserções, Tinum = Ttamanho = n/2. Para a segunda série de n/2 operações, 
executamos a seguinte sequência: 


inserir, eliminar, eliminar, inserir, inserir, eliminar, eliminar, inserir, inserir, . ... 


A primeira inserção causa uma expansão da tabela até o tamanho n. As duas eliminações seguintes provocam uma 
contração da tabela de volta ao tamanho 1/2. Duas inserções adicionais provocam outra expansão, e assim por diante. 
O custo de cada expansão e contração é Q(n), e há Q(n) dessas operações. Assim, o custo total das n operações é 
Q(n,), e o custo amortizado de uma operação é Q(n). 

A desvantagem dessa estratégia é óbvia: após expandirmos a tabela, não eliminamos itens suficientes para pagar 
uma contração. Do mesmo modo, após contrairmos a tabela, não inserimos itens suficientes para pagar uma expansão. 

Podemos aperfeiçoar essa estratégia permitindo que o fator de carga da tabela caia abaixo de 1/2. 
Especificamente, continuamos a duplicar o tamanho da tabela quando um item é inserido em uma tabela cheia, mas o 
reduzimos à metade quando a eliminação de um item resulta em uma tabela menos de 1/4 cheia, em vez de 1/2 cheia 
como antes. Então, o fator de carga da tabela tem um limite inferior dado pela constante 1/4. 

Intuitivamente, consideramos que um fator de carga de 1/2 seja ideal e o potencial da tabela seria 0. À medida que 
o fator de carga se desvia de 1/2, o potencial cresce, de modo que, ao tempo em que expandimos ou contraímos a 
tabela, ela já acumulou potencial suficiente para pagar a cópia de todos os itens para a tabela recém-alocada. Assim, 
precisaremos de uma função potencial que cresceu até T.num ao tempo em que o fator de carga tiver crescido até 1 ou 
diminuído até 1/4. Após expandir ou contrair a tabela, o fator de carga volta a 1/2 e o potencial da tabela diminui e volta 
a O. 

Omítimos o código para TasLEDeLETE por ser análogo a TasLe-Inserr. Para a nossa análise, consideraremos que, 
sempre que o número de itens na tabela cair a 0, liberamos o armazenamento para a tabela. Isto é, se T7num = 0, então 
Ttamanho = 0. 

Agora podemos usar o método do potencial para analisar o custo de uma sequência de n operações TasLE-InserT € 
TasLe-DeLere. Começamos definindo uma função potencial que é O imediatamente após uma expansão ou contração e 
aumenta à medida que o fator de carga aumenta até 1 ou diminui até 1/4. Vamos denotar o fator de carga de uma tabela 
não vazia T por a(7) = Tnum/Ttamanho. Visto que para uma tabela vazia Tnum = Ttamanho = 0 calT|=1, 
sempre temos Tnum = a(T) x Ttamanho, quer a tabela esteja vazia ou não. Utilzaremos como nossa função potencial 


-|2-T.num—T tamanho sedT)>1/2, 


Mrj= 
Ttamanho/2-Tnum  sedT)<1/2. 


(17.6) 


Observe que o potencial de uma tabela vazia é O e que o potencial nunca é negativo. Portanto, o custo amortizado 
total de uma sequência de operações emrelação a dá um limite superior para o custo real da sequência. 

Antes de continuar com uma análise precisa, fazemos uma pausa para examinar algumas propriedades da função 
potencial. Observe que, quando o fator de carga é 1/2, o potencial é 0. 

Quando o fator de carga é 1, temos T.tamanho = Tinum, o que implica = T.num e, assim, o potencial pode pagar 
uma expansão se um item é inserido. Quando o fator de carga é 1/4, temos T'tamanho = 4 x Tinum, o que implica = 
Tinum e, assim, o potencial pode pagar uma contração se um item é elimmado. 

Para analisar uma sequência de n operações TasLe-Inserr € TaBLE-DELETE, Sejam c, o custo real da i-ésima operação, 
c”i seu custo amortizado em relação a , num, o número de ítens armazenados na tabela após a i-ésima operação, 


tamanho, o tamanho total da tabela após a i-ésima operação, a' o fator de carga da tabela após a i-ésima operação e ; 
o potencial após a i-ésima operação. Inicialmente, num, = O, tamanho, = 0,a0=1e0=0. 
Começamos com o caso no qual a i-ésima operação é TasLe-Inserr. A análise é idêntica à da expansão de tabela 
da Seção 17.4.1 se ai — 1 > 1/2. Quer a tabela seja expandida ou não, o custo amortizado c” da operação é, no 
máximo, 3. Seai—1<1/2,a tabela não pode se expandir como esultado da operação, já que ela se expande somente 


quando ai— 1=1. Seai< 1/2, então o custo amortizado da i-ésima operação será 


ê, = +00, 
1 + (tamanho,/2 — num) — (tamanho, ,/2 — num, .) 


1 + (tamanho,/2 — num, — (tamanho,/2 — (num, — 1)) 


= 0. 
E 
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Figura 17.4 Ffeito de uma sequência de n operações taBLe-inserr e taBLe-DeLETE Sobre O número numi de itens na tabela, o número 


16 24 


tamanho: de posições na tabela e o potencial 


2-num, — tamanho, sea >1/2, 


'— |tamanho /2—-num, sea <1/2: 


cada um medido após a i-ésima operação. A linha fina mostra numi, a linha tracejada mostra tamanho;, e a linha grossa mostra ;. Observe 


que, imediatamente antes de uma expansão, o potencial aumentou até o número de itens na tabela e, portanto, pode pagar a 
movimentação de todos os itens para a nova tabela. Da mesma forma, imediatamente antes de uma contração, o potencial aumentou até 


o número de itens na tabela. 


Sea, ,<1/2,masa,> 1/2, então 


0 = c+d-D 


1+(2x num, — tamanho) — (tamanho, |/2 — num, .) 
= 1+(2num, + 1) — tamanho, ) — (tamanho, /2 —- num, |) 


= 3xnum, |— E tamanho, | +3 


2 q 
= 3a, tamanho, | — Es tamanho, ,+3 


3 due 
< tamanho, | — — tamanho, ,+3 
2 2 


1 


= Bi 


Assim, o custo amortizado de uma operação TasLe-Inserr é, no máximo, 3. 

Examinaremos agora o caso no qual a i-ésima operação é TasLe-DeLere. Nesse caso, num, = num, — 1 — 1. Se ai — 
1! < 1/2, devemos considerar se a operação provoca ou não contração da tabela. Se não provoca, tamanho, = 
tamanho, — 1, e o custo amortizado da operação é 


é = hoo, 
= 1 +(tamanho,/2 — num) — (tamanho, ,/2 = num, ) 
= 1 + (tamanho/2 — num) — (tamanho /2 — (num, + 1)) 
= 2. 

Seai—-1<1/2€ai-ésima operação ativa uma contração, o custo real da operação é c, = num, + 1, visto que 
eliminamos um item e movemos num, itens. Temos tamanho,/2 = tamanho, — 1/4 = num, + 1 e o custo amortizado da 
operação é 
ê, = +0- Ds; 

(num, + 1) + (tamanho,/2 — num) — (tamanho, ,/2 — num, .) 


= (num, + 1) + ((num, + 1) — num) — ((2 x num, + 2) — (num, + 1)) 
= 1. 


Quando a i-ésima operação é uma TasLe-DeLere € ai — 1 > 1/2, o custo amortizado também é limitado por cima por 
uma constante. A análise fica para o Exercício 17.4-2. 

Resumindo, visto que o custo amortizado de cada operação é limitado por cima por uma constante, o tempo real 
para qualquer sequência de n operações em uma tabela dinâmica é O(n). 


Exercícios 


17.4-1 Suponha que desejamos implementar uma tabela hash dinâmica de endereço aberto. Por que poderíamos 
considerar que a tabela está cheia quando seu fator de carga alcança algum valor a que é estritamente menor 
que 1? Descreva brevemente como fazer a inserção em uma tabela hash dinâmica de endereço aberto 
funcionar de tal maneira que o valor esperado do custo amortizado por inserção seja O(1). Por que o valor 
esperado do custo real por inserção não é necessariamente O(1) para todas as inserções? 


17.4-2 Mostre que, seai— 1> 1/2 e a i-ésima operação em uma tabela dinâmica é TaBLe-DeLere, O custo amortizado 
da operação em relação à função potencial (17.6) é limitado por cima por uma constante. 


17.4-3 Suponha que, em vez de contrair uma tabela reduzindo seu tamanho à metade quando seu fator de carga cai 
abaixo de 1/4, nós a contraíssemos multiplicando seu tamanho por 2/3 quando seu fator de carga cai abaixo 
de 1/3. Usando a função potencial 


(ND =|2xTnum-Ttamanhol, 


mostre que o custo amortizado de uma operação TasLE-DeLErE que utiliza essa estratégia é limitado por cima 
por uma constante. 


Problemas 


IN 


Contador binário com inversão de bits 


O Capítulo 30 examina um importante algoritmo denominado transformação rápida de Fourier (FFT — fast 
Fourier transform). A primeira etapa do algoritmo FFT executa uma permutação com reversão de bits em 
um arranjo de entrada A[O .. n — 1] cujo comprimento é n = 2k para algum inteiro não negativo k. Essa 
permutação troca entre si elementos cujos índices têm representações binárias que são o reverso uma da 
outra. Podemos expressar cada índice a como uma sequência de k bits (a,—1, a-2, ..., a), onde 


ba as 
p= Es a,2 * Definimos 


e ss a) = adia 


k-1 
FE Ã 
rev, (1)= Da? ; 
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1=0 


Por exemplo, se n = 16 (ou, o que é equivalente, k = 4), então rev«(3) = 12, já que a representação de 3 com 
4 bits é 0011 que, ao ser invertido, dá 1100, a representação com 4 bits de 12. 


a. Dada uma função rev: que é executada no tempo Q(k), escreva um algoritmo para executar a permutação 
com reversão de bits em um arranjo de comprimento n = 2:no tempo O(nk). 


Podemos usar um algoritmo baseado em uma análise amortizada para melhorar o tempo de execução da 
permutação com reversão de bits. Mantemos um “contador com bits reversos” e um procedimento Brr- 
Reversep-IncrReMENT Que, dado um valor a do contador com bits reversos produz reve(revi(a) + 1). Por 
exemplo, se k = 4 e o contador com inversão de bits começa em 0, chamadas sucessivas a Brr-ReveRsED- 
INCREMENT produzem a sequência 


0000, 1000, 0100, 1100, 0010, 1010, ... = 0, 8,4, 12,2,10,.... 


b. Suponha que as palavras em seu computador armazenem valores de k bits e que, no tempo unitário, o 
computador pode manipular os valores binários com operações tais como deslocamentos para a 
esquerda ou para a direita de valores arbitrários, AND em relação a bits, OR em relação a bits etc. 
Descreva uma implementação do procedimento Brr-ReverseD-INcREMENT Que permita que a permutação com 
reversão de bits em um arranjo de n elementos seja executada no tempo total O(n). 


c. Suponha que você possa deslocar uma palavra somente um bit para a esquerda ou para a direita em 
tempo unitário. Ainda é possível implementar uma permutação com reversão de bits no tempo O(n)? 


Como tornar dinâmica a busca binária 


A busca binária de um arranjo ordenado demora um tempo de busca logarítmico, mas o tempo para inserir um 
novo elemento é linear em relação ao tamanho do arranjo. Podemos melhorar o tempo para inserção 
mantendo vários arranjos ordenados. Especificamente, suponha que desejemos suportar Searcn € Insert em 


um conjunto de n elementos. Seja k = le(n + 1), e seja (n, — 1,n,—2,..., no) à representação binária de n. 

Temos k arranjos ordenados A, 4,, ..., 4,—1 onde, para i = 0, 1,...., k — 1, o comprimento do arranjo 4, é 2 

. Cada arranjo está cheio ou vazio, dependendo de n, = 1 ou n, = 0, respectivamente. O número total de 
o DN 

elementos contidos em todos os k arranjos é, portanto, sp n,2 =. Embora cada arranjo individual seja 


ordenado, não há nenhuma relação particular entre elementos de arranjos diferentes. 
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a. Descreva como executar a operação Searcn para essa estrutura de dados. Analise seu tempo de 
execução do pior caso. 


b. Descreva como executar a operação Inserr. Analise seu tempo de execução do pior caso e seu tempo de 
execução amortizado. 


c. Discuta como implementar Deere. 


r 


Arvores de peso balanceado amortizadas 


Considere uma árvore de busca binária comum aumentada pelo acréscimo a cada nó x do atributo 
x.tamanho que dá o número de chaves armazenadas na subárvore com raiz em x. Seja a uma constante na 
faixa 12 <a < 1. Dizemos que um dado nó x é a balanceado se x.esquerda.tamanho < a : x.tamanho e 
x.direita.tamanho < a : x.tamanho. A árvore como um todo é a-balanceada se todo nó na árvore é a 
balanceado. A abordagem amortizada para manter árvores de peso balanceado que apresentamos a seguir foi 
sugerida por G. Varghese. 


a. Uma árvore 1/2-balanceada é, em certo sentido, tão balanceada quanto possível. Dado um nó x em uma 
árvore de busca binária arbitrária, mostre como reconstruir a subárvore com raiz em x de modo que ela 
se torne 1/2-balanceada. Seu algoritmo deve ser executado no tempo Q(x.tamanho) e pode utilizar 
armazenamento auxiliar O(x.tamanho). 


b. Mostre que executar uma busca em uma árvore de busca binária a-balanceada de n nós demora O(lg n) 
tempo do pior caso. 


Para o restante deste problema, considere que a constante a seja estritamente maior que 1/2. Suponha que 
implementamos Inserr e DeLere da maneira usual para uma árvore de busca binária de n nós, exceto que, após 
cada uma dessas operações, se qualquer nó na árvore não for mais a-balanceado, “reconstruímos” a 
subárvore com raiz no mais alto nó com essa propriedade, de modo tal que ela se torne 1/2-balanceada. 
Analisaremos esse esquema de reconstrução usando o método do potencial. Para um nó x em uma árvore de 
busca binária T, definimos 


A(x) = |x.esquerda.tamanho — x.direita.tamanho |, 


e definimos o potencial de T como 


AT)=c > A(x), 


17-4 


xET:A(x)>2 


onde c é uma constante suficientemente grande que depende de a. 


c. Demonstre que qualquer árvore de busca binária tem potencial não negativo e que uma árvore 1/2- 
balanceada tem potencial 0. 


d. Suponha que m unidades de potencial possam pagar a reconstrução de uma subárvore de m nós. Que 
tamanho deve ter c em termos de a, de modo que o tempo amortizado para a reconstrução de uma 
subárvore que não seja a-balanceada seja O(1)? 


e. Mostre que a inserção ou a eliminação de um nó de uma árvore a-balanceada de n nós tem o custo de 
tempo amortizado O(lg nn). 


O custo de reestruturação de árvores vermelho-preto 


Há quatro operações básicas em árvores vermelho-preto que executam modificações estruturais: inserções 
de nós, eliminações de nós, rotações e mudanças de cor. Vimos que RB-Inserr e RB-Derer utilizam somente 
O(1) rotações, inserções de nós e eliminações de nós para manter as propriedades vermelho-preto, mas 
podem fazer um número muito maior de mudanças de cor. 


a. Descreva uma árvore vermelho-preto correta com n nós tal que chamar RB-Inserr para adicionar o (n + 
1)-ésimo nó provoque (lg n) mudanças de cor. Então descreva uma árvore vermelho-preto correta com n 
nós para a qual chamar RB-DeLere em um nó particular provoca (lg n) mudanças de cor. 


Embora o número de mudanças de cor do pior caso por operação possa ser logarítmico, provaremos que 
qualquer sequência de m operações RB-Inserre RB-DeLere em uma árvore vermelho-preto inicialmente vazia 
provoca O(m) modificações estruturais no pior caso. Observe que contamos cada mudança de cor como uma 
modificação estrutural. 


b. Alguns dos casos tratados pelo laço principal do código de RB-Inserr-Fixur e RB-DeLere-Fixur são 
terminais: uma vez encontrados, eles fazem o laço terminar após um número constante de operações 
adicionais. Para cada um dos casos de RB-Inserr-Fixur € RB-DeLere-Fixur, especifique quais são terminais 
e quais não são. (Sugestão: Observe as Figuras 13.5, 13.6 e 13.7.) 


Primeiro analisaremos as modificações estruturais quando são executadas somente inserções. Seja 7” uma 
árvore vermelho-preto e defina (7) como o número de nós vermelhos em 7. Suponha que uma unidade de 
potencial pode pagar as modificações estruturais executadas por qualquer dos três casos de RB-Inserr-Frxur. 


c. Seja 7” o resultado da aplicação do Caso 1 de RB-Inserr-Frxur a T. Mostre que (7) = (1) — 1. 


d. Quando inserimos um nó em uma árvore vermelho-preto utilizando RB-Inserr, podemos desmembrar a 
operação em três partes. Faça uma lista das modificações estruturais e mudanças de potencial resultantes 
das linhas 116 de RB-Inserr para casos não terminais de RB-Inserr-Fixur e para casos terminais de RB- 


INsERT-Fixur. 


e. Usando a parte (d), demonstre que o número amortizado de modificações estruturais executadas por 
qualquer chamada de RB-Inserr é O(1). 


Agora desejamos provar que existem O(m) modificações estruturais quando ocorrem inserções e eliminações. 
Vamos definir, para cada nó x, 


se x é vermelho, 


útii= se x é preto e não tem nenhum filho vermelho, 
se x é preto e tem um filho vermelho, 


poco tr 


se x é preto e tem dois filhos vermelhos. 


Agora, redefinimos o potencial de uma árvore vermelho-preto T' como 
HT) = >Su(x), 
xET 
e seja 7” a árvore que resulta da aplicação de qualquer caso não terminal de RB-Inserr-Fixur ou RB-DeLere- 


Fura 7. 


f Mostre que (7º) < (7) — 1 para todos os casos não terminais de RB-Inserr-Fixur. Demonstre que o 
número amortizado de modificações estruturais executadas por qualquer chamada de RB-Inserr-Fixur é 
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OI). 


g Mostre que (7”) < (7) — 1 para todos os casos não terminais de RB-Deere-Fixur. Demonstre que o 
número amortizado de modificações estruturais executadas por qualquer chamada de RB-DeLere-Fixur é 
O(1). 


h. Complte a prova de que, no pior caso, qualquer sequência de m operações RB-Inserre RB-DeLere 
executa modificações estruturais O (m). 


Análise competitiva de listas auto-organizadas com mova-para- frente 


Uma lista auto-organizada é uma lista ligada de n elementos, na qual cada elemento tem uma chave 
exclusiva. Quando procuramos um elemento na lista, recebemos uma chave e queremos encontrar um 
elemento que tenha essa chave. 


A lista auto-organizada tem duas propriedades importantes: 


1. Para encontrar um elemento na lista, dada a sua chave, devemos percorrer a lista desde o início até 
encontrar o elemento que tem a chave dada. Se esse elemento é o k-ésimo elemento desde o início da 
lista, o custo de encontrar o elemento é k. 


2. Podemos reordenar os elementos da lista após qualquer operação, de acordo com uma regra dada com 
um custo dado. Podemos escolher qualquer heurística que quisermos para decidir como reordenar a lista. 


Suponha que começamos com um determinada lista de n elementos e que recebemos uma sequência de 
acesso s = (sl, s2, ..., sm) de chaves a encontrar, em ordem. O custo da sequência é a soma dos custos dos 
acessos individuais na sequência. 


Dentre os vários modos possíveis de reordenar a lista após uma operação, este problema focaliza a 
transposição de elementos adjacentes na lista — permutação de suas posições na lista — com um custo 
unitário para cada operação de transposição. Você mostrará, por meio de uma função potencial, que 
determinada heurística para reordenação da lista, denominada mova-para-frente, acarreta um custo total que 
não é pior que quatro vezes o de qualquer outra heurística para manter a ordem da lista — mesmo que a outra 
heurística conheça antecipadamente a sequência de acesso! Esse tipo de análise é chamada de análise 
competitiva. 


Para uma heurística H e uma determinada ordenação inicial da lista, denote por C,(s). o custo de acesso da 
sequência s . Seja m o número de acessos emss. 


a. Mostre que, se a heurística H não conhecer antecipadamente a sequência de acesso, o pior caso para H 
em uma sequência de acesso s é Cu(s) = (mn). 


Com a heurística mova-para-frente, imediatamente após procurar um elemento x, passamos x para a 
primeira posição na lista (isto é, para a frente da lista). 


Vamos denotar por rankZ(x) o posto do elemento x na lista L, isto é, a posição de x na lista L. Por exemplo, 
se x é o quarto elemento em Z, rank! (x) = 4. Seja c, o custo de acesso si usando a heurística move-to-front, 
que inclui o custo de encontrar o elemento na lista e o custo de passá-lo para a frente da lista por uma série de 
transposições de elementos adjacentes na lista. 


b. Mostre que, se T; acessa o elemento x na lista L usando a heurística move-to-front, então c;= 2 - 
ranki(x) — 1. 


Agora comparamos mova-para-frente com qualquer outra heurística H que processe uma sequência de 
acesso de acordo com as duas propriedades já citadas. A heurística H pode transpor elementos na lista do 
Jeito que quiser e poderia até conhecer antecipadamente toda a sequência de acesso. 


Seja L, a lista após acesso si usando mova-para-frente e seja L*i a lista após acesso si usando heurística H. 
Denotamos o custo de acesso si por c, para a heurística move-to-front e por c. | para a heurística H. Suponha 
que a heurística H execute t. transposições durante o acesso sº. 


c. Na parte (b), você mostrou que c;=2 - rank: , (x) — 1. Agora, mostre que c*i = rankL*, | (x) + 1. 


Definimos uma inversão na lista L, como um par de elementos y e z tal que y precede z em Z, e z precede y 
na lista L,. Suponha que a lista Z, tenha q, inversões após processar a sequência de acesso (sl, s2, ..., si). 
Então, definimos uma função potencial que mapeia L, para um número real por (L;) = 2g,. Por exemplo, se 
L, tiver os elementos (e, c, a, d, b) e L. tiver os elementos (c, a, b, d, e), L terá cinco inversões ((e, c), (e, a), 
(e, d), (e, b), (d, b)) e, portanto, (L;) = 10. Observe que (L;) > O para todo i e que, se mova-para-frente e 
heurística H começarem com a mesma lista L,, (Lo) = 0. 


d. Mostre que uma transposição aumenta o potencial de 2 ou reduz o potencial de 2. 


Suponha que acesso T, encontre o elemento x. Para entender como o potencial muda devido a T., vamos 
particionar os elementos, exceto x, em quatro conjuntos, dependendo de onde eles estão posicionados nas 
listas exatamente antes do i-ésimo acesso: 


* Conjunto 4 consiste em elementos que precedem x nas listas L , e L*, .. 

* Conjunto B consiste em elementos que precedem x em, , e vêm depois de x em L*, .. 
* Conjunto C consiste em elementos que vêm depois de x em Z ,, e precedem x em L*, .. 
* Conjunto D consiste em elementos que vêm depois de x nas listas L , e L*, ,.. 


e. Mostre que rank, | (x)=|4] + |Bj+ 1 erankz* ()=|A|+]|C|+1. 
fi Mostre que acesso siprovoca uma mudança no potencial de 
DL) — PL, )<AIAL— IBI+E), 
onde, como antes, a heurística H executa 1, transposições durante acesso s.. 
Defina o custo amortizado c” ; de acesso s, por” ,=c,+(L)—(L,.). 
g. Mostre que o custo amortizado c” ; do acesso s , é limitado por cima por 4c:;. 


h. Conclua que o custo Cwrr(s) da sequência de acesso s com mova-para-frente é, no máximo, quatro vezes 
o custo Cu(s) de s com qualquer outra heurística H, supondo que ambas as heurísticas começam com a 
mesma lista. 


NorTas DO CAPÍTULO 


Aho, Hopcroft e Ullman [5] usaram análise agregada para determinar o tempo de execução de operações em uma 
floresta de conjuntos disjuntos; analisaremos essa estrutura de dados usando o método do potencial no Capítulo 21. 
Tarjan [331] examina os métodos da contabilidade e de potencial de análise amortizada e apresenta diversas 
aplicações. Ele atribui o método da contabilidade a vários autores, entre eles M. R. Brown, R. E. Tarjan, S. Huddleston 
e K. Mehlhom e o método do potencial a D. D. Sleator. O termo “amortizado” se deve a D. D. Sleator e R. E. Tarjan. 

Funções potenciais também são úteis para provar limites inferiores para certos tipos de problemas. Para cada 
configuração do problema, definimos uma finção potencial que mapeia a configuração para um número real. Então, 
determinamos o potencial inicial da configuração inicial, o potencial final da configuração final e a máxima mudança no 
potencial Dmax que se deve aqualquer etapa. Portanto, o número de etapas deve ser, no mínimo, |final — inicial|//[Dmax]|. 
Exemplos de funções potencial para provar limites inferiores para complexidade de E/S aparecem em trabalhos de 
Cormen, Sundquist e Wisniewski [79]; e Floyd [107] e Aggarwal e Vitter [4]. Krumme, Cybenko e Venkataraman 
[221] aplicaram funções potenciais para provar limites inferiores para fofoca: comunicar um único item de cada vértice 
em um grafo a todos os outros vértices. 

A heurística move-to-front do Problema 17-5 finciona muito bem na prática. Além do mais, se reconhecermos 
que, quando encontramos um elemento podemos recortá-lo de sua posição na lista e passá-lo para a frente da lista em 
tempo constante, podemos mostrar que o custo de mova-para-frente é, no máximo, duas vezes o custo de qualquer 
outra heurística incluindo, novamente, uma que conheça antecipadamente toda a sequência de acesso. 


1Em algumas situações, como no caso de uma tabela hash de endereço aberto, poderemos querer considerar uma tabela cheia se seu 
fator de carga for igual a alguma constante estritamente menor que 1 (veja o Exercício 17.4-1). 


Parte 


ESTRUTURAS DE DADOS AVANÇADAS 


InrroDUÇÃO 


Esta parte volta ao estudo de estruturas de dados que suportam operações em conjuntos dinâmicos, porém em um 
nível mais avançado que o da Parte III. Por exemplo, dois dos capítulos fazem uso extensivo das técnicas de análise 
amortizada que vimos no Capítulo 17. 

O Capítulo 18 apresenta as B-árvores, que são árvores de busca balanceadas projetadas especificamente para 
armazenamento em discos. Visto que discos funcionam muito mais lentamente que memória de acesso aleatório, 
medimos o desempenho de B-árvores não apenas pela quantidade de tempo de computação que as operações em 
conjuntos dinâmicos consomem, mas também pela quantidade de acessos a disco que elas executam. Para cada 
operação de B-árvore, o número de acessos a disco aumenta com a altura da B-árvore, porém operações de B-árvore 
mantêm a altura baixa. 

O Capítulo 19 apresenta uma implementação de um heap intercalável, que dá suporte as operações Inserr, 
Minimum, Exrracr-Min € Union.! À operação Union une, ou intercala, dois heaps. Heaps de Fibonacci — a estrutura de 
dados apresentada no Capítulo 19 — também dão suporte as operações DeLetE € Decrease-Key. Usamos limites de 
tempo amortizados para medir o desempenho de heaps de Fibonacci. As operações Inserr, Minimum € Union demoram 
somente tempo real e amortizado O(1) em heaps de Fibonacci, e as operações Exrracr-Min € DeLertE demoram o tempo 
amortizado O(lg n). Entretanto, a vantagem mais significativa dos heaps de Fibonacci é que Decrease-Key leva somente o 
tempo amortizado O(1). Como a operação Decrease-Key demora tempo amortizado constante, heaps de Fibonacci são 
componentes fundamentais de alguns dos algoritmos assintoticamente mais rápidos existentes até hoje para problemas 
de grafos. 

Observando que podemos superar o limite inferior (n lg n) para ordenação quando as chaves são inteiros dentro 
de uma faixa restrita, o Capítulo 20 questiona se podemos projetar uma estrutura de dados que suporta as operações 
de conjuntos dinâmicos SearcH, INSERT, DELETE, MiNIMUM, MAXIMUM, SUCCESSOR € PREDECESSOR NO tempo o(lg n) quando as 
chaves são inteiros dentro de uma faixa restrita. Acontece que a resposta diz que podemos, se usarmos uma estrutura 
de dados recursiva conhecida como árvore de van Emde Boas. Se as chaves forem inteiros distintos extraídos do 
conjunto (0, 1,2,...,u- 1), onde u é uma potência exata de 2, então as árvores de van Emde Boas suportam cada 
uma das operações citadas no tempo O(lg lg u). 

Finalmente, o Capítulo 21 apresenta estruturas de dados para conjuntos disjuntos. Temos um universo de n 
elementos que são particionados em conjuntos dinâmicos. Inicialmente, cada elemento pertence a seu próprio conjunto 
unitário. A operação Unionune dois conjuntos, e a consulta Finp-Seridentifica o único conjunto que contém um 
determinado elemento no momento em questão. Representando cada conjunto por uma árvore enraizada simples, 
obtemos operações surpreendentemente rápidas: uma sequência de m operações é executada no tempo O(m a(n)), 
onde a(n) é uma função de crescimento incrivelmente lento — a(n) é no máximo 4 em qualquer aplicação concebível. A 
análise amortizada que prova esse limite de tempo é tão complexa quanto a estrutura de dados é simples. 


Os tópicos abordados nesta parte não são de modo algum os únicos exemplos de estruturas de dados 

“avançadas”. Entre outras estruturas de dados avançadas citamos as segutes: 

* Árvores dinâmicas, introduzidas por Sleator e Tarjan 319 e discutidas por Tarjan 330, mantêm uma floresta de 
árvores enraizadas disjuntas. Cada aresta em cada árvore tem um custo de valor real. Árvores dinâmicas suportam 
consultas para encontrar pais, raízes, custos de arestas e o custo de aresta mínimo em um caminho simples de um 
nó até uma raiz. As árvores podem ser manipuladas por corte de arestas, atualização de todos os custos de arestas 
em um caminho simples de um nó até uma raiz, ligação de uma raiz a uma outra árvore e transformação de um nó 
em raiz da árvore na qual ele aparece. Uma implementação de árvores dinâmicas dá um limite de tempo 
amortizado O(lg n) para cada operação; uma implementação mais complicada produz limites de tempo O(lg n) no 
pior caso. Árvores dinâmicas são usadas em alguns dos algoritmos de fluxo de rede assintoticamente mais rápidos. 

* Árvores oblíquas, desenvolvidas por Sleator e Tarjan 320 e, novamente, discutidas por Tarjan 330, são uma 
forma de árvore de busca binária, na qual as operações padrões de árvores de busca são executadas em tempo 
amortizado O(lg n). Uma das aplicações de árvores oblíquas simplifica árvores dinâmicas. 

* Estruturas de dados persistentes permitem consultas, e, às vezes, também atualizações, em versões anteriores de 
uma estrutura de dados. Driscoll, Sarnak, Sleator e Tarjan 97 apresentam técnicas para transformar estruturas de 
dados ligadas em persistentes com apenas um pequeno custo de tempo e espaço. O Problema 13-1 dá um 
exemplo simples de um conjunto dinâmico persistente. 

* Como veremos no Capítulo 20, várias estruturas de dados permitem uma implementação mais rápida de operações 
de dicionário (Insert, DELETE € SEARCH) para um universo restrito de chaves. Tirando proveito dessas restrições, elas 
podem conseguir melhores tempos de execução assintóticos do pior caso que estruturas de dados baseadas em 
comparação. Fredman e Willard introduziram as árvores de fusão 115, as primeiras estruturas de dados a permitir 
operações de dicionário mais rápidas quando o universo está restrito a mteiros. Eles mostraram como implementar 
essas operações no tempo O(lg n/lg le n). Várias estruturas de dados subsequentes, entre elas as árvores 
exponenciais de busca 16 também deram limites melhorados para algumas ou todas as operações de dicionário e 
são mencionadas em notas de capítulos em todo este livro. 

* Estruturas de dados de grafos dinâmicos suportam várias consultas e ao mesmo tempo permitem que a 
estrutura de um grafo mude por meio de operações que inserem ou eliminam vértices ou arestas. Entre os exemplos 
das consultas que elas suportam citamos a conectividade de vértices 166, a conectividade de arestas, as árvores 
geradoras mínimas 165, a biconectividade e o fecho transítivo 164. 


Notas do capítulo em todo o livro mencionam outras estruturas de dados adicionais. 


1 Como no Problema 10-2, definimos um heap intercalável para suportar Minimum e Extract-Min e, portanto, também podemos nos referir a 
ele como um heap de mínimo intercalável. Alternativamente, se suportasse Maximum e Extract-Max, ele seria um heap de máximo intercalável. 
A menos que especifiquemos o contrário, como padrão os heaps intercaláveis serão heaps de mínimo intercaláveis. 


ÁRVORES B 


B-árvores são árvores de busca balanceadas projetadas para funcionar bem em discos ou outros dispositivos de 
armazenamento secundário de acesso direto. B-árvores são semelhantes a árvores vermelho-preto (Capítulo 13), mas 
são melhores para minimizar operações de E/S de disco. Muitos sistemas de bancos de dados usam B-árvores ou 
variantes de B-árvores para armazenar informações. 

As B-árvores são diferentes das árvores vermelho-preto no sentido de que os nós de B-árvores podem ter muitos 
filhos, de alguns até milhares. Isto é, o “fator de ramificação” de uma B-árvore pode ser bastante grande, embora 
normalmente, dependa de características da unidade de disco utilizada. As B-árvores são semelhantes às árvores 
vermelho-preto no sentido de que toda B-árvore de n nós tem altura O(lg n). Todavia, a altura exata de uma B-árvore 
pode ser consideravelmente menor que a altura de uma árvore vermelho-preto porque seu fator de ramificação e, por 
consequência, a base do logaritmo que expressa sua altura pode ser muito maior. Portanto, também podemos usar B- 
árvores para implementar muitas operações de conjuntos dinâmicos no tempo O(lg nn). 

B-árvores generalizam árvores de busca binária de modo natural. A Figura 18.1 mostra uma B-árvore simples. Se 
um nó interno x de uma B-árvore contém x.n chaves, então x tem x.n + 1 filhos. As chaves no nó x servem como 
pontos de divisão que separam a faixa de chaves manipulada por x emx.n + 1 subfaixas, cada uma tratada por um filho 
de x. Quando procuramos uma chave em uma B-árvore, tomamos uma decisão de (x.n + 1) vias, com base em 
comparações com as x.n chaves armazenadas no nó x. À estrutura de nós de folhas é diferente da estrutura de nós 
internos; examinaremos essas diferenças na Seção 18.1. 

A Seção 18.1 dá uma definição precisa de B-árvores e prova que o aumento da altura de uma B-árvore é apenas 
logarítmico de acordo com o número de nós que ela contém. A Seção 18.2 descreve como procurar uma chave e como 
inserir uma chave em uma B-árvore, e a Seção 18.3 discute eliminação. Porém, antes de prosseguir, precisamos 
perguntar por que avaliamos estruturas de dados projetadas para funcionar em um disco de modo diferente das 
estruturas de dados projetadas para funcionar em memória principal de acesso aleatório. 


T.root 


Figura 18.1 Uma B-árvore cujas chaves são as consoantes do alfabeto latino. Umnó intemo x contendo x.n chaves temx.n + 1 filhos. 
Todas as folhas estão na mesma profundidade na árvore. Os nós sombreados em tom mais claro são examinados em uma busca pela 
letra R. 


Estruturas de dados em armazenamento secundário 


Os sistemas de computador aproveitam várias tecnologias que fornecem capacidade de memória. A memória 
primária (ou memória principal) de um sistema de computador normalmente, consiste em chips de memória de 
silício. Em geral, essa tecnologia é mais de uma ordem de grandeza mais cara por bit armazenado que a tecnologia de 
armazenamento magnético, como fitas ou discos. A maioria dos sistemas de computador também tem armazenamento 
secundário baseado em discos magnéticos; muitas vezes, a quantidade de tal armazenamento secundário é no mínimo 
duas ordens de grandeza maior que a quantidade de memória primária. A Figura 18.2 mostra uma unidade de disco 
típica. A unidade consiste em uma ou várias lâminas que giram a uma velocidade constante em torno de um eixo 
comum. Um material magnetizável cobre a superficie de cada lâmina. A unidade de disco lê ou grava cada lâmina por 
meio de uma cabeça na extremidade de um braço. Os braços podem movimentar suas cabeças aproximando-se ou 
afastando-se do fuso. Quando determinada cabeça está estacionária, a superfície que passa sob ela é denominada 
trilha. Várias lâminas aumentam somente a capacidade da unidade de disco, mas não seu desempenho. 

Embora os discos sejam mais baratos e tenham maior capacidade que a memória principal, eles são muito, muito 
mais lentos porque têm peças mecânicas móveis.! O movimento mecânico tem dois componentes: a rotação da lâmina e 
o movimento do braço. Na época da redação desta edição, a velocidade de rotação dos discos comerciais era 5.400- 
15.000 revoluções por minuto (RPM). O que existia, normalmente no comércio eram velocidades de 15.000 RPM em 
unidades de disco de grau de servidor, 7.200 RPM em unidades de disco de computadores de mesa e 5.400 RPM em 
unidades de disco de laptops. Embora a velocidade de 7.200 RPM pareça alta, uma rotação demora 8,33 
milissegundos, tempo que é mais de cinco ordens de grandeza maior que os tempos de acesso de 50 nanossegundos 
(mais ou menos) comumente encontrados em memória de silício. Em outras palavras, se temos de esperar uma rotação 
completa para um ítem específico cair sob a cabeça de leitura/gravação, podemos acessar a memória principal mais de 
100.000 vezes durante esse mesmo período. Em média, temos de esperar somente metade de uma rotação, mas ainda 
assim, a diferença entre tempos de acesso para memórias de silício e para discos é enorme. A movimentação dos 
braços também demora algum tempo. Na época em que redigimos esta edição, os tempos de acesso médios para 
discos comerciais estavam na faixa de 8-11 milissegundos. 

Para amortizar o tempo gasto na espera de movimentos mecânicos, os discos acessam vários itens de cada vez, e 
não apenas um. As informações são divididas em várias páginas de bits de igual tamanho que aparecem 
consecutivamente dentro de trilhas, e cada leitura ou gravação de disco é de uma ou mais páginas inteiras. Para um 
disco típico, uma página pode ter 21! a 214 bytes de comprimento. Tão logo a cabeça de leitura/gravação esteja 
posicionada corretamente e o disco tenha girado até o início da página desejada, a leitura ou gravação em disco 
magnético é inteiramente eletrônica (exceto a rotação do disco) e o disco pode ler ou gravar rapidamente grande 
quantidade de dados. 
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Figura 18.2 Uma unidade de disco típica. Ela é composta por uma ou mais lâminas (aqui mostramos duas lâminas) que giram emtomo 
de um fuso. Cada lâmina é lida e gravada com uma cabeça na extremidade de um braço. Os braços giram ao redor de umeixo pivô 
comum. Uma trilha é a superfície que passa sob a cabeça de leitura/gravação quando a cabeça está estacionária. 


Muítas vezes, acessar uma página de informações em um disco e ler essa página demora mais que examinar todas 
as informações lidas. Por essa razão, neste capítulo estudaremos separadamente os dois componentes principais do 
tempo de execução: 


* o número de acessos ao disco, e 
* o tempo de CPU (ou de computação). 


Medimos o número de acessos ao disco em termos do número de páginas de informações que precisam ser lidas 
do disco ou nele gravadas. Observamos que o tempo de acesso ao disco não é constante — depende da distância 
entre a trilha atual e a trilha desejada, e também da posição de rotação inicial do disco. Não obstante, usaremos o 
número de páginas lidas ou gravadas como uma aproximação de primeira ordem do tempo total gasto no acesso ao 
disco. 

Em uma aplicação típica de B-árvore, a quantidade de dados manipulados é tão grande que os dados não cabem 
todos na memória principal de uma só vez. Os algoritmos de B-árvores copiam páginas selecionadas do disco para a 
memória principal conforme necessário e gravam novamente em disco as páginas que foram alteradas. Algoritmos de B- 
árvores mantêm somente um número constante de páginas na memória principal em qualquer instante; assim, o tamanho 
da memória principal não limita o tamanho das B-árvores que podem ser manipuladas. 

Modelamos operações de disco em nosso pseudocódigo da maneira ilustrada a seguir. Seja x um ponteiro para um 
objeto. Se o objeto estiver atualmente na memória principal do computador, poderemos referenciar os atributos do 
objeto do modo usual: por exemplo, x.chave. Contudo, se o objeto referenciado por x residir no disco, teremos de 
executar a operação Disk-Rean(x) para ler o objeto x para a memória principal antes de podermos referenciar seus 
atributos. (Supomos que, se x já está na memória principal, Disx-Rean(x) não requer nenhum acesso ao disco; é uma 
“não operação” (“no-op”).) De modo semelhante, a operação Disx-Wrrre(x) é usada para gravar quaisquer alterações 
que tenham sido feitas nos atributos do objeto x. Isto é, o padrão típico de trabalho com um objeto é o seguinte: 


x = um ponteiro para algum objeto 

Disx-READ(x) 

operações que acessam e/ou modificam os atributos de x 

Disx-WRITE(x) // omitida se nenhum atributo de x foi alterado 
outras operações que acessam mas não modificam atributos de x 


O sistema pode manter somente um número limitado de páginas na memória principal em qualquer instante. 
Suporemos que, o sistema descarrega da memória principal as páginas que não estão mais em uso; nossos algoritmos 
de B-árvores ignorarão essa questão. 

Visto que na maioria dos sistemas o tempo de execução de um algoritmo de B-árvore depende primariamente do 
número de operações Disk-Reap € Disk-Wrrr: que executa, seria bom que cada uma dessas operações lesse ou gravasse 
o máximo possível de informações. Assim, um nó de B-árvore é, normalmente, tão grande quanto uma página de disco 
inteira, e esse tamanho limita o número de filhos que um nó de B-árvore pode ter. 

Para uma B-árvore grande armazenada em disco, normalmente, os fatores de ramificação estão entre 50 e 2.000, 
dependendo do tamanho de uma chave em relação ao tamanho de uma página. Um fator de ramificação grande reduz 
drasticamente a altura da árvore e também o número de acessos ao disco necessários para encontrar qualquer chave. A 
Figura 18.3 mostra uma B-árvore com um fator de ramificação de 1.001 e altura 2 que pode armazenar mais de um 
bilhão de chaves; não obstante, visto que podemos manter o nó de raiz permanentemente na memória principal, 
podemos encontrar qualquer chave dessa árvore com, no máximo, dois acessos ao disco. 
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Figura 18.3 Uma B-árvore de altura 2 contendo mais de um bilhão de chaves. Dentro de cada nó x aparece x.n, o número de chaves em 
x. Cada nó interno e folha contêm 1.000 chaves. Essa B-árvore contém 1.001 nós na profundidade 1 e mais de ummilhão de folhas na 
profundidade 2. 


18.1 Derinição DE B-ÁRVORES 


Por questão de simplicidade, supomos — como fizemos para as árvores de busca binária e árvores vermelho- 
preto que quaisquer “informações satélites” associadas a uma chave residem no mesmo nó que a chave. Na prática, 
poderíamos até mesmo armazenar com cada chave apenas um ponteiro para uma outra página de disco que contenha 
as informações satélites para essa chave. O pseudocódigo neste capítulo, supõe implicitamente que as informações 
satélites associadas a uma chave, ou o ponteiro para tais informações satélites, acompanham a chave sempre que esta 
passar de nó para nó. Uma variante comum de B-árvore, conhecida como B-árvore+, armazena todas as informações 
satélites nas folhas e apenas chaves e ponteiros de filhos nos nós internos, o que maximiza o fator de ramificação dos 
nós internos. 

Uma B-árvore+ T é uma árvore enraizada (cuja raiz é T'raiz) que tem as seguintes propriedades: 


1. Todo nó x tem os seguintes atributos: 


a. x.n, o número de chaves atualmente armazenadas no nó x, 

b. as próprias x.n chaves, x.chavei, x.chaves, ... , x.chave-n, armazenadas em ordem não decrescente, de 
modo que x.chave< x.chave< ... <x.chavesn, 

c. x.folha, um valor booleano que é verapeiro se x é uma folha e raLso se x é um nó interno. 


2. Cada nó interno x também contém x.n + 1 ponteiros x.c1, x.c2, ..., X.C «» + para seus filhos. Os nós de folhas não 
têm filhos e, assim, seus atributos c;são indefinidos. 

3. As chaves x.chave; separam as faixas de chaves armazenadas em cada subárvore: se k; é qualquer chave 
armazenada na subárvore com raiz cx, então 


k, < x.chave, <k,< Achava, S os É X.chave, ad a é 


4. Todas as folhas têm a mesma profundidade, que é a altura h da árvore. 
5. Os nós têm limites inferiores e superiores para o número de chaves que podem conter. Expressamos esses limites 
em termos de um inteiro fixo t > 2 denominado grau mínimo da B-árvore: 
a. Todo nó, exceto a raiz, deve ter no mínimo t - 1 chaves. Assim, todo nó interno, exceto a raiz, tem no mínimo 
t filhos. Se a árvore é não vazia, a raiz deve ter no mínimo uma chave. 
b. Todo nó pode conter no máximo 2t - 1 chaves. Portanto, um nó intemo pode ter no máximo 2t filhos. 
Dizemos que um nó está cheio se contém exatamente 2t - 1 chaves.» 
A B-árvore mais simples ocorre quando t = 2. Então, todo nó interno tem dois, três ou quatro filhos, e temos uma 
árvore 2-3-4. Todavia, na prática, valores muito mais altos de t produzem B-árvores de menor altura. 


A altura de uma B-árvore 


O número de acessos ao disco exigidos para a maioria das operações em uma B-árvore é proporcional à altura da 
B-árvore. Analisamos agora a altura do pior caso de uma B-árvore. 


Teorema 18.1 


Sen> 1, então, para qualquer B-árvore T de n nós de altura h e grau mínimo 1 >2, 


n<log, e. 


Prova A raiz de uma B-árvore T contém no mínimo uma chave, e todos os outros nós contêm no mínimo t - 1 chaves. 
Assim, T, cuja altura é h, tem no mínimo dois nós na profundidade 1, no mínimo 24 nós na profundidade 2 e no mínimo 
2t, nós na profundidade 3 ,e assim por diante, até que na profundidade h ela tem no mínimo 2%,-! nós. A Figura 18.4 
ilustra tal árvore para h = 3. Assim, o número n de chaves satisfaz a desigualdade 


h 
n>1+(t-D> 28" 
i=1 


| 
pa 
t—1 


= 1+2(t-1 


— 2H -1 


Por álgebra simples, obtemos £, < (n + 1)/2. Tomando logaritmos em base t de ambos os lados prova-se o teorema. 


Vemos aqui, o poder de B-árvores em comparação com árvores vermelho-preto. Embora a altura da árvore 
cresça na proporção O(lg n) em ambos os casos (lembre-se de que t é uma constante), para as B-árvores a base do 
logaritmo pode ser muitas vezes maior. Assim, B-árvores poupam um fator de aproximadamente lg t em relação a 
árvores vermelho-preto no que se refere ao número de nós examinados para a maioria das operações de árvore. 
Como, normalmente, temos de acessar o disco para examinar um nó arbitrário em uma árvore, as B-árvores evitam 
uma quantidade substancial de acessos ao disco. 
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Figura 18.4 Uma B-árvore de altura 3 contendo umnúmero mínimo possível de chaves. Mostramos x.n dentro de cada nó x. 


Exercícios 

18.1-1 Por que não permitimos um grau mínimo t = 1? 

18.1-2 Para quais valores de t a árvore da Figura 18.1 é uma B-árvore válida? 

18.1-3 Mostre todas as B-árvores válidas de grau mínimo 2 que representam (1,2,3,4,5). 


18.1-4 Qual é o número máximo de chaves que podem ser armazenadas em uma B-árvore de altura h em função do 
grau mínimo 1? 


18.1-5 Descreva a estrutura de dados que resultaria se cada nó preto em uma árvore vermelho-preto absorvesse seus 
filhos vermelhos incorporando os filhos vermelhos a seus próprios filhos pretos. 


18.2 OperaçÕES BÁSICAS EM B-ÁRVORES 


Nesta seção, apresentamos os detalhes das operações B-Trer-Searcn, B-Trer-Creare € B--Trer-Inserr. Nesses 
procedimentos, adotamos duas convenções: 


* Araiz da B-árvore está sempre na memória principal, de modo que nunca precisamos executar uma operação Disk- 
READ na raiz; porém, temos de executar uma operação Disk-Wrrrs da raiz, sempre que o nó de raiz for modificado. 

* Qualquer nó só poderá ser passado como parâmetro após a execução de uma operação Disk-Reap nesse mesmo 
nó. 


Os procedimentos que apresentamos são algoritmos de “uma passagem” cuja execução ocorre na direção 
descendente em relação à raiz da árvore, sem ter de retornar. 


Busca em uma B-árvore 

Executar uma busca em uma B-árvore é muito semelhante a executar uma busca em uma árvore de busca binária, 
exceto que, em vez de tomar uma decisão de ramificação binária ou de “duas vias” em cada nó, tomamos uma decisão 
de ramificação de várias vias, de acordo com o número de filhos do nó. Mais exatamente, em cada nó interno x, 
tomamos uma decisão de ramificação de (x.n + 1) vias. 

B-Trer-SearcH é uma generalização direta do procedimento Trer-Searcn definido para árvores de busca binária. B- 
TrEE-SEARcH toma como entrada um ponteiro para o nó de raiz x de uma subárvore e uma chave k que deve ser 
procurada nessa subárvore. Assim, a chamada de nível superior é da forma B-Trer-Searcn(T raiz, k). Se k está na B- 
árvore, B-Trer-SearcH retorna o par ordenado (y, i), que consiste em um nó y e um índice i tal que y.chave, = k. Caso 
contrário, o procedimento retorna nr. 

B-TrEE-SEARCH(x, k) 

1 = 1 
while 1 < x.nek > x.chave, 

t=1+1 
ifi<x.nek= x.chave, 

return (x, 1) 
elseif x.folha 

retum NIL 


else Disk-READ(x.c,) 


O co NOACGGTRON 


return B-TREE-SEARCH(X.c,, k) 


Usando um procedimento de busca linear, as linhas 1-3 encontram o menor índice i tal que k < x.chave, ou 
definem i como x.n + 1. As linhas 4-5 verificam se agora descobrimos a chave e a retornam se a tivermos descoberto. 
Caso contrário, as linhas 6-9 terminam a busca sem sucesso (se x é uma folha) ou executam uma recursão para 
procurar a subárvore adequada de x, após executar a necessária operação Disk-Reap naquele filho. 

A Figura 18.1 ilustra a operação de B-Trer-SearcH. O procedimento examina os nós sombreados em tom mais claro 
durante uma operação de busca da chave R. 

Como ocorre no procedimento Trer-SearcH para árvores de busca binária, os nós encontrados durante a recursão 
formam um caminho simples descendente desde a raiz da árvore. Portanto, o procedimento B-Trer-Searcn acessa O(h) 
= O(log'n) páginas de disco, onde h é a altura da B-árvore e n é o número de chaves na B-árvore. Visto que x.n < 2t, 
o laço while das linhas 2-3 demora o tempo O(t) dentro de cada nó, e o tempo total de CPU é Ol(th) = O(t log! n). 


Criando uma B-árvore vazia 


Para construir uma B-árvore T, primeiro utilizamos B-Trez-Create para criar um nó de raiz vazio e depois chamamos 
B-Trer-InsERT para acrescentar novas chaves. Esses dois procedimentos usam um procedimento auxiliar ALLocatE-NoDE, 
que aloca uma página de disco para ser usada como um novo nó no tempo O(1). Podemos considerar que um nó 
criado por ALLocar:-NopE não requer nenhuma operação Disx-Reap, já que ainda não existe nenhuma informação útil 
armazenada no disco para esse nó. 


B-TREE-CREATE(T) 

+ X = ALLOCATE-NODE( ) 
Pd x.folha = TRUE 
3 en=0 

4 Disk-WRITE(x) 
o) Etta = 
B 


- TrREE-CREATE requer O(1) operações de disco e tempo de CPU O(1). 


Inserindo uma chave em uma B-árvore 


Inserir uma chave em uma B-árvore é significativamente mais complicado que inserir uma chave em uma árvore de 
busca binária. Quando se trata de árvores de busca binária, procuramos a posição de folha na qual inserir a nova chave. 
Porém, quando se trata de uma B-árvore, não podemos simplesmente criar um novo nó de folha e imserilo, já que a 
árvore resultante deixaria de ser uma B-árvore válida. Em vez disso, inserimos a nova chave em um nó de folha 
existente. Visto que não podemos inserir uma chave em um nó de folha que está cheio, recorremos a uma operação que 
reparte um nó cheio y (que tem 2t - 1 chaves) em torno de sua chave mediana chave] em dois nós que têm 
somente t - 1 chaves cada. A chave mediana sobe para dentro do pai de y para identificar o ponto de repartição entre 
as duas novas árvores. Porém, se o pai de y também está cheio, temos de reparti-lo antes de podermos inserir a nova 
chave e, assim, podemos acabar repartindo nós cheios por toda a árvore acima. 

Como ocorre com uma árvore de busca binária, podemos inserir uma chave em uma B-árvore em uma única 
passagem descendente pela árvore da raiz até uma folha. Para tal, não esperamos para verificar se realmente 
precisamos repartir um nó cheio para executar a inserção. Em vez disso, à medida que descemos a árvore à procura da 
posição à qual pertence a nova chave, repartimos cada nó cheio que encontramos pelo caminho (inclusive a própria 
folha). Assim, sempre que queremos repartir um nó cheio y, temos a certeza de que seu pai não está cheio. 


Repartindo um nó em uma B-árvore 


O procedimento B-Trer-SpLrr-CurLp toma como entrada um nó interno x não cheio (que consideramos estar na 
memória principal) e um índice i tal que x.c, (que também consideramos estar na memória principal) que é um filho 
cheio de x. Então, o procedimento reparte esse filho em dois e ajusta x de modo que ele tenha um filho adicional. Para 
repartir uma raiz cheia, primeiro transformaremos a raiz em um filho de um novo nó de raiz vazio para podermos usar B- 
Trer-SpLir-CHiLD. Assim, a altura da árvore aumenta de uma unidade; repartir é o único meio de a árvore crescer. 

A Figura 18.5 ilustra esse processo. Repartimos o nó cheio y = x.c, em torno de sua chave mediana S, que sobe 
para o nó x, pai de y. As chaves em y que são maiores que a chave mediana passam para um novo nó z, que se torna 
um novo filho de x. 


B-TrEeE-SPLIT-CHILD(x, 1) 


1 z = ALLOCATE-NODE() 

PA YV=AX., 

3 z.folha = y.folha 

+ zn=t-—1 

5 forj=1tot —1 

6 z.chave, = y.chave,, 
À if not y.folha 

8 forj=1tot 

9 ZC,= Y.C,., 
10 yn=t-l 

11 for | = x.n + 1 downto i + 1 
12 XCiy XL, 

13 XC1=2 

14 for | = x.n downto 1 

15 x.chave, , = x.chave, 


16 x.chave, = y.chave, 
17 xn=xn+1 

18 Disx-WRITE(y) 
19 Dirsx-WRrITE(Z) 
20 Disk-WRITE(x) 


B-Trer-SpLrr-Cur.p funciona pelo método direto de “recortar e colar”. Aqui, x é o nó que está sendo repartido e y é 
o i-ésimo filho de x (definido na linha 2). O nó y tem originalmente 21 filhos (2t - 1 chaves), mas é reduzido a t filhos (t - 
1 chaves) por essa operação. O nó z toma os t maiores filhos (t - 1 chaves) de y, e z se torna um novo filho de x, 
posicionado logo após y na tabela de filhos de x. A chave mediana de y sobe e torna-se a chave em x que separa y e z. 

As linhas 1-9 criam o nó z e dão a ele as t - 1 chaves maiores e os £ filhos correspondentes de y. A linha 10 ajusta 
a contagem de chaves para y. Finalmente, as linhas 11-17 inserem z como um filho de x, passam a chave mediana de y 
para cima até x, para separar y de z, e ajustam a contagem de chaves de x. As linhas 18-20 gravam todas as páginas 
de disco modificadas. O tempo de CPU usado por B-Trer-Sprrr-Cmrrp é (7), devido aos laços nas linhas 5-6 e 8-9. (Os 
outros laços são executados para Ot) iterações.) O procedimento executa O(1) operações de disco. 
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Figura 18.5 Repartição de umnó comt =4. Onó y =x.cié repartido em dois nós, y e z, e a chave mediana S de y sobe para dentro do pai 
de y. 


Inserindo uma chave em uma B-árvore em uma única passagem descendente pela árvore 


Inserir uma chave k em uma B-árvore T de altura h em uma única passagem descendente pela árvore requer O(h) 
acessos ao disco. O tempo de CPU requerido é O(th) = Olt log! n). O procedimento B-Tree-Inserr utiliza B-Tree-SpLrT- 
CriLp para garantir que a recursão nunca desça até um nó cheio. 


B-TrEE-INSERT(T k) 
1 p= E mia 
Írn== 2! =1 
s = ALLOCATE-NODE() 
Tqntz=s 
sfolha = FALSE 
sn=0 
Sc =" 
B-TrEE-SpLIT-CHILD(s, 1) 
B-TRrEE-INSERT-NONFULL(s, k) 
10 else B-TrREE-INSERT-NONFULL(r, k) 


OCO NOACGTROúN 


As linhas 3-9 tratam o caso no qual o nó de raiz r está cheio: a raiz é repartida e um novo nó s (que tem dois filhos) 
se torna a raiz. Repartir a raiz é o único modo de aumentar a altura de uma B-árvore. A Figura 18.6 ilustra esse caso. 
Diferentemente de uma árvore de busca binária, a altura de uma B-árvore aumenta em cima, em vez de embaixo. O 
procedimento termina chamando B-Trer-Insert-NonruLL para inserir a chave k na árvore com raiz no nó de raiz não cheio. 
B-Tree-Insert-N onfull executa recursão árvore abaixo conforme necessário e garante todas as vezes que o nó no qual 
executa a recursão não está cheio chamando B-Trer-SpLrr-CHirp quando necessário. 

O procedimento recursivo auxiliar B-Trer-Inserr-NonruLL insere a chave k no nó x, suposto não cheio quando o 
procedimento é chamado. A operação de B-Trrr-Inserr e à operação recursiva de B-Trer-InserT-NonruLL garantem que tal 
suposição seja válida. 


B-TRrEE-INSERT-NONFULL(x, k) 


1 e 2) 

P if x.folha 

Ei while i > 1ek< x.chave, 

+ x.chave, ,, = x.chave, 

5 i=i—1 

6 x.chave, ,, =k 

À xn=xn+1 

8 Disk-WRITE(x) 

4 else whilei > 1ek < x.chave, 

10 i=i—1 

1 i=1+1 

12 Disk-READ(X.c,) 

13 1 xe = 2 — 1 

14 B-TRrEE-SPLIT-CHILD(X, 1, X.C,) 
15 ifk > x.chave, 

16 i=1+1 

17 B-TRrEE-INSERT-NONEFULL(X.C,, k) 
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Figura 18.6 Repartição da raiz comt = 4. O nó de raiz r é repartido em dois, e umnovo nó de raiz s é criado. A nova raiz contéma chave 
mediana de r e tem como filhos as duas metades de r. A altura da B-árvore aumenta de uma unidade quando a raiz é repartida. 


O procedimento B-Trer-Inserr-Nonrutt funciona da maneira descrita a seguir. As linhas 3-8 tratam o caso no qual x 
é um nó folha inserindo a chave k emx. Se x não é um nó folha, devemos inserir k no nó folha adequado na subárvore 
com raiz no nó interno x. Nesse caso, as linhas 9-11 determinam o filho de x para o qual a recursão é descendente. A 
linha 13 detecta se a recursão desceria até um filho cheio, caso em que a linha 14 usa B-Trer-SrLrr-CHiLp para repartir 
esse filho em dois filhos não cheios, e as linhas 15-16 determinam qual dos dois filhos é agora o filho correto para o qual 
descer. (Observe que não há nenhuma necessidade de uma operação Disx-Reap(x.c;) após a linha 16 incrementar i, já 
que nesse caso a recursão descerá até um filho que acabou de ser criado por B-Trer-Sprr-CHrrp.) Portanto, o efeito 
líquido das linhas 13-16 é garantir que o procedimento nunca executará uma recursão em um nó cheio. Então, a linha 17 
executa recursão para inserir k na subárvore adequada. A Figura 18.7 ilustra os vários casos de inserção em uma B- 
árvore. 

Para uma B-árvore de altura h, B-Trer-Inserr executa O(h) acessos a disco, já que ocorrem somente O(1) 
operações Disk-Reap € Disk-Wrrr entre chamadas a B-Tree-Inserr-NonruLL. O tempo total de CPU usado é O(th) = O(t 
logt n). Visto que B-Trer-Inserr-NonruLL é recursivo de cauda, podemos implementá-lo alternativamente como um laço 


while, demonstrando assim que o número de páginas que precisam estar na memória principal em qualquer instante é 
o(I). 


Exercícios 
18.2-1 Mostre os resultados da inserção das chaves 
ESOM CALMA DD A 


em ordem, em uma B-árvore vazia com grau mínimo 2. Desenhe apenas as configurações da árvore 
imediatamente antes de algum nó ter de ser repartido, e desenhe também a configuração final. 


18.2-2 Explique sob quais circunstâncias, se houver, ocorrem operações redundantes Disk-Reap OU Disk-Wrrre durante 
o curso da execução de uma chamada a B-Tree-Inserr. (Uma operação Disx-Reap redundante é uma operação 
Disk-READ para uma página que já está na memória. Uma operação Disx-Wrrre redundante grava em disco uma 
página de informações idêntica à que já está ali armazenada.) 


18.2-3 Explique como encontrar a chave mínima armazenada em uma B-árvore e como encontrar o predecessor de 
uma determinada chave armazenada em uma B-árvore. 


18.24 X 


Suponha que inserimos as chaves (1, 2, ..., nt em uma B-árvore vazia com grau mínimo 2. Quantos nós tem a 
B-árvore final? 
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Figura 18.7 Inserção de chaves em uma B-árvore. O grau mínimo t para essa B-árvore é 3; assim, umnó pode conter no máximo cinco 
chaves. Nós que são modificados pelo processo de inserção estão sombreados em tom mais claro. (a) A árvore inicial para este exemplo. 
(b) O resultado da inserção de B na árvore inicial; essa é uma inserção simples em umnó de folha. (c) O resultado da inserção de O na 
árvore anterior. Onó RS TU Vé repartido emdois nós contendo R Se UV,a chave Té passada para cima até a raiz e O é inserido na 
metade mais à esquerda das duas metades (o nó RS). (d) O resultado da inserção de L na árvore anterior. A raiz é repartida 
imediatamente, já que está cheia, e a altura da B-árvore aumenta de uma unidade. Então, L é inserido na folha que contém J K. (e) O 
resultado da inserção de F na árvore anterior. Onó 4B CD Eé repartido antes de F ser inserido na metade mais à direita das duas 
metades (o nó DE). 


18.2-5 Visto que nós folha não exigem nenhum ponteiro para filhos, eles poderiam usar um valor t diferente (maior) 
do número de nós internos para o mesmo tamanho de página de disco. Mostre como modificar os 
procedimentos de criação e inserção em uma B-árvore para tratar essa variação. 


18.2-6 Suponha que quiséssemos implementar B-Trer-SearcH para usar busca binária em vez de busca linear dentro de 
cada nó. Mostre que essa alteração resulta no tempo de CPU requerido O(lg nn), independentemente do modo 
como t poderia ser escolhido em função de n. 


18.2-7 Suponha que o hardware de disco nos permita escolher arbitrariamente o tamanho de uma página de disco, 
mas que o tempo necessário para ler a página de disco seja a + bt, onde a e b são constantes especificadas e 
t é o grau mínimo para uma B-árvore que utiliza páginas do tamanho selecionado. Descreva como escolher £ 
para minimizar (aproximadamente) o tempo de busca da B-árvore. Sugira um valor ótimo de t para o caso em 
que a = 5 milissegundos e b = 10 microssegundos. 


18.3 ELIMINAR UMA CHAVE EM UMA B-ÁRVORE 


Eliminar uma chave em uma B-árvore procedimento análogo à inserção, mas é um pouco mais complicada porque 
podemos eliminar uma chave de qualquer nó — não apenas uma folha — e, quando eliminamos uma chave de um nó 
interno, temos de rearranjar os filhos do nó. Como na inserção, devemos nos prevenir para que a eliminação não 
produza uma árvore cuja estrutura viole as propriedades de B-árvores. Exatamente como tivemos de assegurar que um 
nó não ficasse demasiadamente grande devido à inserção, temos de garantir que um nó não fique demasiadamente 
pequeno durante a eliminação (exceto a raiz, que poder ter menos que o número mínimo £t - 1 de chaves). Assim como 
um algoritmo de inserção simples poderia ter de retroceder se um nó no caminho até o ponto de inserção da chave 
estivesse cheio, uma abordagem de eliminação simples poderia ter de retroceder se um nó (exceto a raiz) no caminho 
até o ponto de eliminação da chave tivesse o número mínimo de chaves. 

O procedimento B-Trer-Derere elimina a chave k da subárvore com raiz em x. Projetamos esse procedimento para 
garantir que sempre que ele chamar a si mesmo recursivamente em um nó x o número de chaves em x é, pelo menos, o 
grau mínimo t. Observe que essa condição requer uma chave a mais que o mínimo exigido pelas condições usuais de B- 
árvores, de modo que, às vezes, será preciso passar uma chave para dentro de um nó filho, antes de a recursão descer 
até esse filho. Essa condição reforçada nos permite eliminar uma chave da árvore em uma única passagem descendente 
sem ter de “retroceder” (com uma única exceção, que explicaremos). Você deve interpretar a especificação dada a 
seguir para eliminação em uma B-árvore entendendo que, se alguma vez o nó de raiz x se tornar um nó interno sem 
nenhuma chave (essa situação pode ocorrer nos casos 2c e 3b, então eliminamos x, e o único filho de x, x.c,, se torna a 
nova raiz da árvore, o que reduz a altura da árvore de uma unidade e preserva a propriedade de a raiz da árvore conter 
no mínimo uma chave (a menos que a árvore esteja vazia). 

Descrevemos como a eliminação funciona, em vez de apresentarmos o pseudocódigo. A Figura 18.8 ilustra os 
vários casos de eliminação de chaves em uma B-árvore. 


1. Sea chave k está no nó x ex é uma folha, elimmne a chave k de x. 
2. Sea chave k está no nó x e x é um nó interno, faça o seguinte: 

a. Seo filho y que precede k no nó x tem no mínimo t chaves, então encontre o predecessor k” de k na 
subárvore com raiz em y. Elimine recursivamente k”, e substitua k por k” em x. (Podemos encontrar k” e 
eliminá-lo em uma única passagem descendente.) 

b. Se y tiver menos que t chaves, então, simetricamente, examine o filho z que segue k no nó x. Se z tiver no 
mínimo t chaves, encontre o sucessor k” de k na subárvore com raiz em z. Elimine k” recursivamente e 
substitua k por kº em x. (Podemos encontrar k” e eliminá-lo em uma única passagem descendente.) 

c. Caso contrário, y e z têm apenas 1 - 1 chaves, junte k e todo o z com y, de modo que x perde k e também o 
ponteiro para z, e agora y contém 21 - 1 chaves. Em seguida, libere z e elimine recursivamente k de y. 


3. Sea chave k não estiver presente no nó interno x, determine a raiz cx da subárvore adequada que deve conter k, 
se k estiver na árvore. Se x.c; tiver somente t - 1 chaves, execute a etapa 3a ou 3b conforme necessário para 
garantir que desceremos até um nó que contém no mínimo t chaves. Então, termine executando recursão no filho 
adequado de x. 

a. Sex.c; tiver somente t - 1 chaves, mas tiver um irmão imediato com no mínimo t chaves, dê a x.ci uma chave 
extra passando uma chave de x para baixo até x.c;, passando uma chave do irmão imediato à esquerda ou à 


direita de x.c; para cima até x, e passando o ponteiro de filho adequado do irmão para x.c:. 
b. Sex.cie os irmãos imediatos de x.c; têm t - 1 chaves, junte x.c; com um irmão, o que envolve passar uma 
chave de x para baixo até o novo nó resultante da junção, que assim se torna a chave mediana para esse nó. 


| | 


(a) árvore inicial 


(e)' Três eliminações 
na altura 


18.8 Eliminação de chaves emuma B-árvore. O grau mínimo para essa B-árvore é t = 3; portanto, um nó (exceto a raiz) não pode ter 
menos de duas chaves. Nós que são modificados estão sombreados em tom mais claro. (a) A B-árvore da Figura 18.7(e). (b) Eliminação 
de F. Esse é o caso 1: eliminação simples de uma folha. (c) Eliminação de M. Esse é o caso 2a: o predecessor L de M passa para cima e 
ocupa a posição de M. (d) Eliminação de G. Esse é o caso 2c: empurramos G para baixo para formar o nó DE GJ Ke depois eliminamos 
G dessa folha (caso 1). (e) Eliminação de D. Esse é o caso 3b: a recursão não pode descer até o nó CL porque ele temapenas duas 
chaves; assim, empurramos P para baixo e o intercalamos com C Le TXpara formar CLP TX; então, eliminamos D de uma folha (caso 
1). (e) Após (e), eliminamos a raiz, e a altura da árvore encolhe uma unidade. (f) Eliminação de B. Esse é o caso 3a: C é movido para 
preencher a posição de B e E é movido para preencher a posição de €. 


Visto que a maioria das chaves em uma B-árvore se encontra nas folhas, podemos esperar que, na prática, 
operações de eliminação são usadas na maior parte das vezes para eliminar chaves de folhas. Então, o procedimento B- 
TreE-DeLETE Age em uma passagem descendente pela árvore, sem ter de retroceder. Contudo, quando elimina uma chave 
em um nó interno, o procedimento efetua uma passagem descendente pela árvore, mas pode ter de retornar ao nó do 
qual a chave foi eliminada para substituir a chave por seu predecessor ou sucessor (casos 2a e 2b). 

Embora pareça complicado, esse procedimento envolve apenas O(h) operações de disco para uma B-árvore de 
altura A, já que somente O(1) chamadas a Disk-Reane Disk-Wrrre são efetuadas entre invocações recursivas do 
procedimento. O tempo de CPU necessário é O(th) = O(t log! n). 


Exercícios 
18.3-1 Mostre os resultados da eliminação de C, P e V, em ordem, da árvore da Figura 18.8(f). 


18.3-2 Escreva o pseudocódigo para B-Trer-DeLere. 


Problemas 
18-1 Pilhas em armazenamento secundário 


Considere a implementação de uma pilha em um computador que tem uma quantidade relativamente pequena 
de memória primária rápida e uma quantidade relativamente grande de armazenamento mais lento em disco. 
As operações Pusn e Por funcionam com valores de uma única palavra. A pilha que desejamos suportar pode 
crescer até seu tamanho tornar-se tão grande que não cabe mais na memória; por isso, parte dela tem de ser 
armazenada em disco. 


Uma implementação de pilha simples, mas ineficiente, mantém a pilha inteira no disco. Mantemos na memória 
um ponteiro de pilha, que é o endereço de disco do elemento do topo da pilha. Se o ponteiro tiver o valor p, 
o elemento do topo é a (p mod m)-ésima palavra na página p/m do disco, onde m é o número de palavras 
por página. Para implementar a operação Pusn, incrementamos o ponteiro da pilha, lemos a página adequada 
para a memória de disco, copiamos o elemento a ser inserido na pilha para a palavra adequada na página e 
gravamos a página de novo no disco. Uma operação Por é semelhante. Decrementamos o ponteiro da pilha, 
lemos a página adequada no disco e voltamos ao topo da pilha. Não precisamos gravar de novo a página, já 
que ela não foi modificada. 


Como operações de disco são relativamente caras, contamos dois custos para qualquer implementação: o 
número total de acessos ao disco e o tempo total de CPU. Qualquer acesso de disco a uma página de m 
palavras incorre em gastos de um acesso de disco e mais (m) tempo de CPU. 


18-2 


a. Assintoticamente, qual é o número de acessos ao disco do pior caso para n operações de pilhas usando 
essa implementação simples? Qual é o tempo de CPU para n operações de pilhas? (Expresse sua 
resposta em termos de m e n para esta parte e para as partes subsequentes.) 


Agora, considere uma implementação de pilha na qual mantemos uma página da pilha na memória. (Mantemos 
também uma pequena quantidade de memória para controlar qual página está atualmente na memória.) 
Podemos executar uma operação de pilha somente se a página de disco relevante residir na memória. Se 
necessário, podemos gravar a página atualmente na memória no disco e ler a nova página do disco para a 
memória. Se a página de disco relevante já estiver na memória, não será necessário nenhum acesso ao disco. 


b. Qual é o número de acessos ao disco do pior caso exigido para n operações Pusu? Qual é o tempo de 
CPU? 


c. Qual é o número de acessos ao disco do pior caso exigido para n operações de pilha? Qual é o tempo 
de CPU? 


Agora, suponha que implementemos a pilha mantendo duas páginas na memória (além de um pequeno número 
de palavras para contabilidade). 


d. Descreva como gerenciar as páginas da pilha de modo que o número amortizado de acessos ao disco 
para qualquer operação de pilha seja O(1/m) e o tempo de CPU amortizado para qualquer operação de 
pilha seja O(1). 


Junção e repartição de árvores 2-3-4 


A operação de junção toma dois conjuntos dinâmicos S” e S”e um elemento x tal que, para qualquer x €E $” 
ex” E S”, temos x".chave < x.chave < x”.chave. A junção retoma um conjunto S=S" U fx) US? A 
operação de repartição é como uma junção “inversa”: dado um conjunto dinâmico S e um elemento x ES, 
ela cria um conjunto Sº que consiste em todos os elementos de S - (x? cujas chaves são menores que 
x.chave, e um conjunto S” que consiste em todos os elementos em S - fx cujas chaves são maiores que 
x.chave. Neste problema, investigaremos como implementar essas operações em árvores 2-3-4. 
Consideramos por conveniência que os elementos consistem apenas em chaves e que todos os valores de 
chaves são distintos. 


a. Mostre como manter, para todo nó x de uma árvore 2-3-4, a altura da subárvore com raiz em x como 
um atributo x.altura. Certifique-se de que sua implementação não afeta os tempos de execução 
assintóticos de busca, inserção e elimmação. 


b. Mostre como implementar a operação de junção. Dadas duas árvores 2-3-4 7” e T” e uma chave k, a 
operação de junção deve ser executada no tempo O(1 + |hº- h”|), onde hº e h”são as alturas de ” e T”, 
respectivamente. 


c. Considere o caminho simples p da raiz de uma árvore 2-3-4 T até uma dada chave k, o conjunto S”º de 
chaves em T que são menores que k, e o conjunto S”º de chaves em T que são maiores que k. Mostre 
que p reparte Sº em um conjunto de árvores (75, Tº,, ..., k') e um conjunto de chaves (k”,, k', ..., 
k'1) onde, para i = 1,2, ..., m, temos y <k'i<z para quaisquer chaves y € T'i-lez € Ti Qualé a 
relação entre as alturas de T"i-1e Ti? Descreva o modo como p reparte S” em conjuntos de árvores e 
chaves. 


d. Mostre como implementar a operação de repartição em T. Utilize a operação de junção para montar as 
chaves de S” em uma única árvore 2-3-4 Tº e as chaves de S” em uma única árvore 2-3-4 7”. O tempo 


de execução da operação de repartição deve ser O(lg n), onde n é o número de chaves em T. 
(Sugestão: Os custos para as operações de junção devem se cancelar.) 


NorTas DO CAPÍTULO 


Knuth [211], Aho, Hopcroft e Ullman [5] e Sedgewick [306] apresentam discussões adicionais de esquemas de 
B-árvoresalanceadas e B-árvores. Comer [74] dá um levantamento abrangente de B-árvores. Guibas e Sedgewick 
[155] discutem as relações entre vários tipos de esquemas de B-árvoresalanceadas, inclusive árvores vermelho-preto e 
árvores 2-3-4. 

Em 1970, J. E. Hopcroft criou as árvores 2-3, precursoras das B-árvores e das árvores 2-3-4, nas quais todo nó 
interno tem ou dois ou três filhos. Bayer e McCreight [35] apresentaram as B-árvores em 1972; eles não explicaram a 
escolha desse nome. 

Bender, Demaine e Farach-Colton [40] estudaram como fazer B-árvores funcionarem bem na presença de efeitos 
de hierarquia de memória. Seus algoritmos sem consciência de cache funcionam eficientemente sem conhecer 
explicitamente os tamanhos de transferência de dados dentro da hierarquia de memória. 


1 Na época da redação desta edição, unidades de disco de estado sólido tinham acabado de chegar ao mercado de consumo. Embora 
sejam mais rápidas que as unidades de disco mecânicas, custam mais por gigabyte e têm menor capacidade que as unidades de disco 
mecânicas. 

2 Uma outra variante comum de uma B-árvore, conhecida como B-árvore*, exige que cada nó intemno esteja no mínimo 2/3 cheio, em vez 
de no mínimo metade cheio, como exige uma B-árvore. 


] O HEAPS DE FIBONACCI 


A estrutura de dados heap de Fibonacci tem dupla finalidade. A primeira é suportar um conjunto de operações que 
constitui o que é conhecido como “heap intercaláveP”. Em segundo lugar, várias operações de heap de Fibonacci são 
executadas em tempo amortizado constante, o que torna essa estrutura bem adequada para aplicações que invocam tais 
operações frequentemente. 


Heaps intercaláveis 


Um heap intercalável é qualquer estrutura de dados que suporte as cinco operações seguintes, nas quais cada 
elemento tem uma chave: 


MAkE-HEAP( ) cria € retorna um novo heap que não contém nenhum elemento. 

Inserr(H, x) insere o elemento x, cuja chave já foi preenchida, no heap H. 

Minimuv( HT) retorna um ponteiro para o elemento do heap H cuja chave é mínima. 

Exrracr-Min(H) elimina o elemento do heap H cuja chave é mínima, retornando um ponteiro para o elemento. 


Union(H,, H) cria e retorna um novo heap que contém todos os elementos dos heaps H, e H,. Os heaps H, e H, são 
“destruídos” por essa operação. 


Além das operações de heap intercalável citadas, os heaps de Fibonacci também suportam as duas operações 
seguintes: 


Decrease-xey(H, x, k) atribui ao elemento x dentro do heap H o novo valor de chave k, que supomos não ser maior que 
seu valor de chave atual. 1 


DeLerte(H, x) elimina o elemento x do heap H. 


Como mostra a tabela na Figura 19.1, se não precisamos da operação Union, heaps binários comuns, como os que 
são utilizados em heapsort (Capítulo 6), funcionam razoavelmente bem. Outras operações, exceto a operação Union, 
são executadas no tempo do pior caso O(lg n) em um heap binário. Contudo, se precisarmos dar suporte à operação 
Union, O desempenho dos heaps binários é sofrível Como concatena os dois arranjos que contêm os heaps binários que 
serão intercalados e depois executa Bum D-Min-Hear (veja Seção 6.3), a operação Union demora o tempo Q(n) no pior 
caso. 

Heaps de Fibonacci, por outro lado, têm limites de tempo assintótico melhores que os heaps binários para as 
operações Insert, UNION € Decrease-KEY, € OS Mesmos tempos de execução assintóticos para as operações restantes. 
Observe, entretanto, que os tempos de execução de heaps de Fibonacci na Figura 19.1 são limites de tempo 


amortizado e não limites de tempo do pior caso por operação. A operação Union demora somente tempo amortizado 
constante em um heap de Fibonacci, o que é significativamente melhor que o tempo linear do pior caso exigido em um 
heap binário (considerando, é claro, que um limite de tempo amortizado seja suficiente). 


Heaps de Fibonacci na teoria e na prática 


De um ponto de vista teórico, os heaps de Fibonacci são especialmente desejáveis quando o número de operações 
Exrracr-MiN € DeLeTE É pequeno em relação ao número de outras operações executadas. Essa situação surge em muitas 
aplicações. Por exemplo, alguns algoritmos para problemas de grafos podem chamar Decrrase-Key uma vez por aresta. 
Para grafos densos, que têm muitas arestas, o tempo amortizado Q(1) de cada chamada de Decrrase-Key significa uma 
grande melhoria em relação ao tempo do pior caso Q(lg nn) de heaps binários. Algoritmos rápidos para problemas como 
cálculo de árvores geradoras mínimas (Capítulo 23) e localização de caminhos mais curtos de origem única (Capítulo 
24) tornam essencial o uso de heaps de Fibonacci. 

Porém, do ponto de vista prático, os fatores constantes e a complexidade da programação de heaps de Fibonacci 
os tornam menos desejáveis que heaps binários (ou k-ários) comuns para a maioria das aplicações. Assim, os heaps de 
Fibonacci são predominantemente de interesse teórico. Se uma estrutura de dados muito mais simples com os mesmos 
limites de tempo amortizado que os heaps de Fibonacci fosse desenvolvida, ela também seria de utilidade prática. 

Heaps binários e heaps de Fibonacci são ineficientes no suporte da operação Searcn; pode demorar um pouco 
para encontrar um elemento com determinada chave. Por essa razão, operações como Decrrase-Key € DELETE, QUE SE 
referem a um dado elemento, requerem um ponteiro para esse elemento como parte de sua entrada. Como em nossa 
discussão de filas de prioridades na Seção 6.5, quando usamos um heap intercalável em uma aplicação, muitas vezes, 
armazenamos um descritor para o objeto da aplicação correspondente em cada elemento de heap intercalável, bem 
como um descritor para o elemento de heap intercalável correspondente em cada objeto da aplicação. A natureza exata 
desses descritores depende da aplicação e de sua implementação. 

Assim, como várias outras estruturas de dados que vimos, heaps de Fibonacci são baseados em árvores 
enraizadas. Representamos cada elemento por um nó dentro de uma árvore, e cada nó tem um atributo chave. No 
restante deste capítulo, usaremos o termo “nó” em vez de “elemento”. Ignoraremos também questões de alocação de 
nós antes de inserção e liberação de nós após eliminação; em vez disso, suporemos que o código que chama os 
procedimentos de heap cuida desses detalhes. 

A Seção 19.1 define heaps de Fibonacci, discute sua representação e apresenta a função potencial usada para sua 
análise amortizada. A Seção 19.2 mostra como implementar as operações de heaps intercaláveis e como obter os 
limites de tempo amortizado mostrados na Figura 19.1. As duas operações restantes, Decrease-Key € DELETE, SÃO 
apresentados na Seção 19.3. Finalmente, a Seção 19.4 conclui uma parte fundamental da análise e também explica o 
curioso nome da estrutura de dados. 


| 


Procedimento Heap binário (pior caso) Heap de Fibonacci (amortizado) 
MaxkE-HEAP o(1) o(1) 
INSERT O(Ig n) o(1) 
MINIMUM O(1) o(1) 
ExTRACT-MIN O(lg n) O(lg n) 
UNION O(n) o(1) 
DEcREASE-KEY O(lg n) o(1) 
DELETE O(Ig n) O(lg n) 


Figura 19.1 Tempos de execução para operações em duas implementações de heaps intercaláveis. O número de itens no(s) heap(s) no 
momento de uma operação é denotado por n. 


19.1 EsrTRUTURA DE HEAPS DE FiBONACCI 


Um heap de Fibonacci é uma coleção de árvores enraizadas que estão ordenadas por heap de mínimo. Isto é, 
cada árvore obedece à propriedade de heap de mínimo: a chave de um nó é maior ou igual à chave de seu pai. A 
Figura 19.2(b) mostra um exemplo de heap de Fibonacci. 

Como mostra a Figura 19.2(b), cada nó x contém um ponteiro x.p para seu pai e um ponteiro x.filho para algum 
de seus filhos. Os filhos de x estão interligados em uma lista circular, duplamente ligada, que denominamos lista de 
filhos de x. Cada filho y em uma lista de filhos tem ponteiros y.esquerda e y.direita que apontam para os irmãos à 
esquerda e à direita de y, respectivamente. Se o nó y é um filho único, então y.esquerda = y.direita = y. Filhos podem 
aparecer em qualquer ordem em uma lista de filhos. 

Listas circulares, duplamente ligadas (veja Seção 10.2) têm duas vantagens para utilização em heaps de Fibonacci. 
A primeira é que podemos inserir um nó em qualquer ponto ou remover um nó de qualquer lugar de uma lista circular 
duplamente ligada no tempo O(1). A segunda é que, dadas duas dessas listas, podemos concatená-las (ou “entrelaçá- 
las”) em uma única lista circular duplamente ligada no tempo O(1). Nas descrições de operações de heaps de 
Fibonacci, faremos referência a essas operações informalmente, deixando a cargo do leitor preencher os detalhes de 
suas implementações como quiser. 

Cada nó tem dois outros atributos. Armazenamos o número de filhos na lista de filhos do nó x em x.grau. O 
atributo do valor booleano x.marca indica se o nó x perdeu um filho desde a última vez que x se tornou o filho de um 
outro nó. Os nós recém-criados não estão marcados, e um nó x se torna desmarcado sempre que passa a ser o filho de 
outro nó. Até examinarmos a operação Decrease-Key na Seção 19.3, simplesmente definiremos todos os atributos 
marca como FaLseE. 


Figura 19.2 (a) Umheap de Fibonacci que consiste em cinco árvores ordenadas por heaps de mínimo e 14 nós. A linha tracejada indica 
a lista de raízes. O nó mínimo do heap é o nó que contéma chave 3. Nós pretos são nós marcados. O potencial desse heap de Fibonacci 
particular é 5 +2 x 3= 11. (b) Uma representação mais completa que mostra ponteiros p (setas para cima), filho (setas para baixo) e 


esquerda e direita (setas laterais). Esses detalhes são omíitidos nas figuras restantes deste capítulo, já que todas as informações 
mostradas aqui podem ser determinadas pelo que aparece na parte (a). 


Acessamos determinado heap de Fibonacci H por um ponteiro H.min para a raiz de uma árvore que contém uma 
chave mínima; esse nó é denominado nó mínimo do heap de Fibonacci. Se mais de uma raiz tiver uma chave como o 
valor mínimo, qualquer raiz pode servir como o nó mínimo. Quando um heap de Fibonacci H está vazio, H.min = nu. 

As raízes de todas as árvores em um heap de Fibonacci são interligadas por meio de seus ponteiros esquerda e 
direita em uma lista circular duplamente ligada denominada lista de raízes do heap de Fibonacci. Assim, o ponteiro 
H.min aponta para o nó na lista de raízes cuja chave é mínima. As árvores podem aparecer em qualquer ordem dentro 
de uma lista de raízes. Contamos com um outro atributo para um heap de Fibonacci H: H.n, o número de nós 
atualmente em H. 


Função potencial 


Como mencionamos, usaremos o método do potencial da Seção 17.3 para analisar o desempenho de operações 
de heap de Fibonacci. Para dado heap de Fibonacci H, indicamos por t(H) o número de árvores na lista de raízes de H 
e por m(H) o número de nós marcados em H. Então, definimos o potencial (H) do heap de Fibonacci H por 


D(H) = HH) + 2m(H) . (19.1) 


(Entenderemos melhor essa função potencial na Seção 19.3.) Por exemplo, o potencial do heap de Fibonacci 
mostrado na Figura 19.1 €5 +2 : 3=11. O potencial de um conjunto de heaps de Fibonacci é a soma dos potenciais 
dos heaps de Fibonacci que o constituem. Suporemos que uma unidade de potencial pode pagar uma quantidade 
constante de trabalho, onde a constante é suficientemente grande para cobrir o custo de qualquer das peças de trabalho 
específicas de tempo constante que poderíamos encontrar. 

Consideramos que uma aplicação de um heap de Fibonacci começa sem nenhum heap. Então, o potencial inicial é 
O e, pela equação (19.1), o potencial é não negativo em todas as vezes subsequentes. Pela equação (17.3), um limite 
superior para o custo total amortizado é um limite superior para o custo total real para a sequência de operações. 


Grau máximo 


As análises amortizadas que realizaremos nas seções restantes deste capítulo supõem que conhecemos um limite 
superior D(n) para o grau máximo de qualquer nó em um heap de Fibonacci de n nós. Não provaremos isso, mas 
quando somente as operações de heaps intercaláveis são suportadas, D(n) < lg n. (O Problema 19-2(d) pede que você 
prove essa propriedade.) Nas Seções 19.3 e 19.4, mostraremos que, quando suportamos também Decrease-Key € 
DeLete, D(n) = O(lg n). 


19.2 OpERAÇÕES DE HEAPS INTERCALÁVEIS 


As operações de heaps intercaláveis em heaps de Fibonacci retardam o trabalho o máximo possível. As várias 
operações têm permutas de desempenho. Por exemplo, inserimos um nó acrescentando-o à lista de raízes, o que 
demora apenas tempo constante. Se começássemos com um heap de Fibonacci vazio e então inserissemos k nós, o 
heap de Fibonacci consistirá em apenas uma lista de raízes de k nós. Em troca, se executarmos em seguida uma 
operação Exrracr-Min no heap de Fibonacci H, após remover o nó para o qual H.min aponta, teremos de examinar 
cada um dos k - 1 nós restantes na lista de raízes para encontrar o novo nó mínimo. Ao mesmo tempo que temos de 
percorrer toda a lista de raízes durante a operação Exrracr-Mrw, também consolidamos nós em árvores ordenadas por 
heaps de mínimo para reduzir o tamanho da lista de raízes. Veremos que, não importando como era a lista antes de uma 


operação Exrracr-Min, depois dela cada nó na lista de raízes tem um grau que é exclusivo dentro da lista de raízes, o que 
resulta em uma lista de tamanho no máximo D(n) + 1. 


Criando um novo heap de Fibonacci 


Para tornar um heap de Fibonacci vazio, o procedimento Maxe-Fis-Hear aloca e devolve o objeto heap de 
Fibonacci H, onde H.n = 0 e Hmin = nn; não há nenhuma árvore em H. Como t(H) = 0 e m(H) = 0, o potencial do 
heap de Fibonacci vazio é F(H) = 0. Assim, o custo amortizado de MAK E-FIB-HEAP é igual ao seu custo real O(1). 


Inserindo um nó 


O procedimento a seguir insere o nó x no heap de Fibonacci H, supondo que o nó x já tenha sido alocado e que 
x.chave já tenha sido preenchida. 


FrB-HeaP-INsERT(H, x) 


1 x.grau = O 

2 X.p = NIL 

É x.filho = NIL 

4 x.marca = FALSE 

5 if H.min == NIL 

6 crie a lista de raízes de H contendo só x 
Fá Emin =x 

8 else insira x na lista de raízes de H 

9 if x.chave < Hmin.chave 

10 H.min =x 


11 Hn=Hn+41 


As linhas 1-4 inicializam alguns dos atributos estruturais do nó x. A linha 5 testa para verificar se o heap de 
Fibonacci H está vazio. Se estiver, as linhas 6-7 fazem de x o único nó na lista de H e definem H.min para apontar para 
x. Caso contrário, as linhas 8-10 inserem x na lista de raízes de H e atualizam H.min se necessário. Finalmente, a linha 
11 incrementa H.n para refletir a adição de um novo nó. A Figura 19.3 mostra um nó com chave 21 inserida no heap 
de Fibonacci da Figura 19.2. 

Para determinar o custo amortizado de Fig-Hear-Inserr, seja H o heap de Fibonacci de entrada e Fº o heap de 
Fibonacci resultante. Então, (1) = (H) + 1 e m(H?) = m(H), e o aumento em potencial é 


(CCE) + 1) + 2m (ED) - (BD) + 2m(HD) = 1. 


Como o custo real é O(1), o custo amortizado é O(1) + 1 = O(1). 


Encontrando o nó mínimo 


O nó mínimo de um heap de Fibonacci H é dado pelo ponteiro H.min; assim, podemos encontrar o nó mínimo no 
tempo real O(1). Visto que o potencial de H não muda, o custo amortizado dessa operação é igual ao seu custo real 
o(I). 


Hmin Hmíin 
Y Y 


OD o an OD) DOD--B-AD-— a, 
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Figura 19.3 Inserindo um nó emumheap de Fibonacci. (a) Um heap de Fibonacci H. (b) O heap de Fibonacci H após a inserção do nó 
comchave 21. O nó se torna sua própria árvore ordenada por heap de mínimo e é então acrescentado à lista de raízes, tornando-se o 
irmão à esquerda da raiz. 


Unindo dois heaps de Fibonacci 


O procedimento a seguir une os heaps de Fibonacci H, e H,, destruindo H, e H, no processo. Ele simplesmente 
concatena as listas de raízes de H, e H,, e determina o novo nó mínimo. Depois disso, os objetos que representam £, e 
H, nunca mais serão usados. 


FrB-Heap-UnIoN(H,, H) 

H = Make-Fis-HEaP() 

H.min = H min 

concatenar a lista de raízes de H, com a lista de raízes de H 

if (H min = NL) ou (H, min = NIL e H, min < H min) 
H.min = H,min 

Hn=Hen+ Hon 

retum H 


JO QGQHRQONm 


As linhas 1-3 concatenam as listas de raízes de H, e H, em uma nova lista de raízes H. As linhas 2, 4 e 5 calculam 
o nó mínimo de H, e a linha 6 calcula H.n como o número total de nós. A linha 7 devolve o heap de Fibonacci resultante 
H. Como no procedimento Fis-Hrar-Inserr, todas as raízes permanecem raízes. 

A mudança de potencial é 


PH) — (AH) + AH) 
= (HH) + 2m(H)) — (HH) + 2m(H)) + (HH) + 20H) 
= 0, 


porque “(H) = (Hj) + EL) e m(Hy) + m(B). Assim, o custo amortizado de Fis-Hear-Union é igual ao seu custo real 
O(I). 


Extraindo o nó mínimo 


O processo de extrair o nó mínimo é a mais complicada das operações apresentadas nesta seção. É também aqui, 
que o trabalho adiado de consolidar árvores na lista de raízes finalmente ocorre. O pseudocódigo a seguir extrai o nó 
mínimo. O código supõe por conveniência que, quando um nó é removido de uma lista ligada, os ponteiros restantes na 
lista são atualizados, mas os ponteiros no nó extraído se mantêm inalterados. O código também chama o procedimento 
auxiliar ConsoLiDATE, Que veremos em breve. 


FrB-HeaP-ExTRACT-MIN(H) 


1 2 = Humin 

2 if z > NIL 

3 for cada filho x de z 

4 adicionar x à lista de raízes de H 
5 X.p = NIL 

6 remova z da lista de raízes de H 
7 if z = z.direita 

8 H.min = NIL 

9 else H.min = z.direita 

10 ConsoLIDATE(H) 

11 Hn=Hn-1 


12 return Z 


Como mostra a Figura 19.4, FiB-Hear-Exrracr-Min funciona primeiro criando uma raiz a partir de cada um dos filhos 
do nó mínimo e removendo o nó mínimo da lista de raízes. Então, consolida a lista de raízes, ligando raízes de mesmo 
grau até restar no máximo uma raiz de cada grau. 

Começamos na linha 1 gravando um ponteiro z para o nó mínimo; o procedimento devolve esse ponteiro no final. 
Se z = nm, então o heap de Fibonacci H já está vazio, e terminamos. Caso contrário, eliminamos o nó z de H, 
transformando todos os filhos de z em raízes de H nas linhas 3-5 (inserindo-os na lista de raízes) e removendo z da lista 
de raízes na linha 6. Se z for seu próprio irmão à direita depois da linha 6, então z era o único nó na lista de raízes e não 
tinha nenhum filho; assim, resta tornar o heap de Fibonacci vazio na linha 8 antes de retornar z. Caso contrário, fazemos 
H.min apontar para uma outra raiz diferente de z (nesse caso, o filho à direita de z), que não será necessariamente o 
novo nó mínimo quando Fis-Hear-Exrracr-Min termma. A Figura 19.4(b) mostra o heap de Fibonacci da Figura 19.4(a) 
após a execução da linha 9. 

A próxima etapa, na qual reduzimos o número de árvores no heap de Fibonacci, é consolidar a lista de raízes de 
H, o que é realizado pela chamada a Consorinare(H). Consolidar a lista de raízes consiste em executar repetidamente as 
etapas seguintes até que toda raiz na lista de raízes tenha um valor de grau distinto. 


1. Encontre duas raízes x e y na lista de raízes com o mesmo grau. Sem prejuízo da generalidade, seja x.chave < 
y.chave. 

2. Liguey ax: remova y da lista de raízes e torne y um filho de x chamando o procedimento Frs-Hear-Linx. Esse 
procedimento incrementa o atributo x.grau e limpa a marca em y. 


O procedimento Consoriare usa um arranjo auxiliar A[0 .. D(H.n)] para controlar as raízes de acordo com seus 
graus. Se A[i] = y, então y é atualmente uma raiz com y.grau = i. É claro que, para alocar o arranjo temos de saber 
como calcular o limite superior D(H.n) no grau máximo, mas veremos como fazer isso na Seção 19.4. 


ConsoLIDATE(H) 


1 seja A[0. .D(H.n)] um novo arranjo 

2 fori= Oto D(H.n) 

3 Ali] = NIL 

4 for cada nó w na lista de raízes de H 

o Xx=w 

6 d = x.grau 

Y while A[d] = nIL 

8 y= Ald] // um outro nó com o mesmo grau de x 
E] if x.chave > y.chave 

10 trocar x com y 
11 FrB-HEAP-LINK(H, 1y, x) 
12 Ald] = NIL 

13 d=d+1 

14 Ald])=x 


15 H.min = NIL 
16 fori = Oto D(H.n) 


17 1f Afi ] = NIL 

18 if H.min == NIL 

19 criar uma nova lista de raízes para H contendo apenas A[i] 
20 H.min = Afi] 

21 else inserir A[1] na lista de raízes de H 
22. 1f Afi).chave < H.min.chave 

23 H.min = Afi] 
FrB-HeaPp-LiNK(H, y, x) 

1 remover y da lista de raízes de H 

po tornar y um filho de x, incrementando x.grau 

3 y.marca = FALSE 


Em detalhes, o procedimento Consoripar funciona como descrevemos a seguir. As linhas 1-3 alocam e inicializam o 
arranjo 4 fazendo cada entrada ni. O laço for das linhas 4-14 processa cada raiz w na lista de raízes. À medida que 
interligamos raízes, w pode ser ligada a algum outro nó e deixar de ser uma raiz. Não obstante, w está sempre em uma 
árvore com raiz em algum nó x, que pode ser ou não a própria w. Como queremos, no máximo uma raiz para cada 
grau, examinamos o arranjo 4 para verificar se ele contém uma raiz y com o mesmo grau de x. Se contiver, ligamos as 
raízes x e y, mas garantindo que x permaneça uma raiz após a ligação. Isto é, ligamos y a x depois de permutar os 
ponteiros para as duas raízes se a chave de y for menor do que a chave de x. Após ligarmos y a x, o grau de x 
aumentou de 1, e assim continuamos esse processo, ligando x e uma outra raiz cujo grau seja igual ao novo grau de x, 
até que nenhuma outra raiz que tivermos processado tenha o mesmo grau de x. Então, fazemos a entrada adequada de 
A apontar para x, de modo que, ao processarmos raízes mais adiante, teremos gravado que x é a única raiz de seu grau 
que já processamos. Quando esse laço for termina, restará no máximo uma raiz de cada grau, e o arranjo A apontará 
para cada raiz restante. 
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Figura 19.4 A ação de Fis-Hear-exrracr-Min. (a) Um heap de Fibonacci H. (b) A situação após a remoção do nó mínimo z é da lista de 
raízes e a adição de seus filhos à lista de raízes. (c)-(e) O arranjo 4 e as árvores após cada uma das três primeiras iterações do laço for 
das linhas 4-14 do procedimento consoLipare. O procedimento processa a lista de raízes começando no nó apontado por H.min e 
seguindo os ponteiros à direita. Cada parte mostra os valores de w e x no fim de uma iteração. (f)-(h) A próxima iteração do laço for, 
comos valores de w e x mostrados no fim de cada iteração do laço while das linhas 7-13. A parte (f) mostra a situação após a primeira 
passagempelo laço while. O nó com chave 23 foi ligado ao nó comchave 7, que agora é apontado por x Na parte (g), o nó com chave 17 
foi ligado ao nó comchave 7, o qualainda é apontado por x. Na parte (h), o nó comchave 24 foi ligado ao nó com chave 7. Como 
nenhumnó foi apontado anteriormente por 43, no fim da iteração do laço for, 43 é feito apontar para a raiz da árvore resultante. 
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Figura 19.4, continuação (i)-(1) A situação após cada uma das quatro iterações seguintes do laço for. (m) O heap de Fibonacci H após a 
reconstrução da lista de raízes pelo arranjo 4 e pela determinação do novo ponteiro minH. 


O laço while das linhas 7-13 liga repetidamente a raiz x da árvore que contém o nó w a uma outra árvore cuja raiz 
tem o mesmo grau que x, até que nenhuma outra raiz tenha o mesmo grau. Esse laço while mantém o seguinte 
invariante: 

No início de cada iteração do laço while, d = x.grau. 

Usamos esse invariante de laço assim: 


Inicialização: A linha 6 assegura que o invariante de laço é válido na primeira vez em que entramos no laço. 


Manutenção: Em cada iteração do laço while, A4[d] aponta para alguma raiz y. Como d = x.grau = y.grau, 
queremos ligar x e y. Entre x e y, a que tiver a menor chave se tornará o pai da outra, como resultado da 
operação de ligação e, assim, as linhas 9-10 trocam os ponteiros para x e y, se necessário. Em seguida, ligamos 
x a y pela chamada Fig-Hear-Lin(H, y, x) na linha 11. Essa chamada incrementa x.grau, mas deixa y.grau como 
d. O nó y não é mais uma raiz e, portanto, a linha 12 remove o ponteiro para ele no arranjo 4. Como a chamada 
de Fis-Hear-Lrnk incrementa o valor de x.grau, a linha 13 restaura o invariante d = x.grau. 


Término: Repetimos o laço while até 4[d] = nm; nesse caso não existe nenhuma outra raiz com o mesmo grau que 
dE 


Depois que o laço while termma, definimos 4[d] como x na linha 14 e executamos a próxima iteração do laço for. 


As Figuras 19.4(c)-(e) mostram o arranjo 4 e as árvores resultantes após as três primeiras iterações do laço for 
das linhas 4-14. Na próxima iteração do laço for, ocorrem três ligações; seus resultados são mostrados nas Figuras 


19.4(9-(h). As Figuras 19.4(1)-(1) mostram o resultado das quatro iterações seguintes do laço for. 

Agora, só falta a limpeza. Uma vez terminado o laço for das linhas 4-14, a linha 15 esvazia a lista de raízes, e as 
linhas 16-23 recriam a lista pelo arranjo 4. O heap de Fibonacci resultante é mostrado na Figura 19.4(m). Após 
consolidar a lista de raízes, FiB-Hear-Exrracr-Min termina decrementando H.n na linha 11 e retornando um ponteiro para 
o nó eliminado z na linha 12. 

Agora, estamos prontos para mostrar que o custo amortizado de extrair o nó mínimo de um heap de Fibonacci de 
n nós é O(D(n)). Seja H a representação do heap de Fibonacci imediatamente antes da operação Fis-Hrar-Exrracr-MIN. 

Começamos com o custo real de extrair o nó mínimo. Uma contribuição O(D(n)) vem de Fis-Hear-Exrracr-MIN 
processar no máximo D(n) filhos do nó mínimo e do trabalho nas linhas 2-3 e 16-23 de Consorinare. Resta analisar a 
contribuição do laço for das linhas 4-14. O tamanho da lista de raízes na chamada a Consocipare é no máximo D(n) + 
H(H) - 1, já que ela consiste nos t(H) nós originais da lista de raízes, menos o nó de raiz extraído, mais os filhos do nó 
extraído, que são no máximo D(n). Dentro de uma dada iteração do laço for das linhas 4-14, o número de iterações do 
laço while das linhas 7-13 depende da lista de raízes. Porém, sabemos que toda vez que passamos pelo laço while uma 
das raízes é ligada a uma outra raiz; assim, o número total de iterações do laço while para todas as iterações do laço 
for é, no máximo, proporcional a D(n) + t(H). Portanto, o trabalho total real na extração do nó mínimo é O(D(n) + 
HH). 

O potencial antes da extração do nó mínimo é 1(H) + 2m(H), e o potencial depois disso é no máximo (D(n) + 1) + 
2m(H), já que restam no máximo D(n) + 1 raízes, e nenhum nó foi marcado durante a operação. Assim, o custo 
amortizado é, no máximo, 


O(D(n) + HH) + ((D(n) + 1) + 2m(H)) — (HH) + 2m(H)) 
= O(D(n)) + O(HH)) — HH) 
= O(D(n)), 


visto que podemos ajustar a escala das unidades de potencial para dominar a constante oculta em O(H(H)). 
Intuitivamente, o custo da execução de cada ligação é pago pela redução do potencial, já que a ligação reduz o número 
de raízes em uma unidade. Veremos na Seção 19.4 que D(n) = O(lg n), de modo que o custo amortizado de extrair o 
nó mínimo é O(lg n). 


Exercícios 


19.2-1 Mostre o heap de Fibonacci resultante de chamar Fis-Hear-Exrracr-Min para O heap de Fibonacci mostrado na 
Figura 19.4(m). 


19.3 DECREMENTAR UMA CHAVE E ELIMINAR UM NÓ 


Nesta seção, mostraremos como decrementar a chave de um nó em um heap de Fibonacci no tempo amortizado 
O(1) e como eliminar qualquer nó de um heap de Fibonacci de n nós no tempo amortizado O(D(n)). Na Seção 19.4, 
mostraremos que o grau máximo D(n) é O(lg n), o que implicará que FiB-Heap-Exrracr-Min € Fip-Heap-DELETE SÃO 
executados no tempo amortizado O(lg nn). 


Decrementando uma chave 


No pseudocódigo a seguir para a operação Fis-Hrar-Decrease-Key, SUPomoSs, como antes, que remover um nó de 
uma lista ligada não muda quaisquer dos atributos estruturais no nó removido. 


FrB-HeAap-DECREASE-KEY(H, x, k) 


1 if k > x.chave 

2 error “nova chave é maior que chave atual” 
3 x.chave = k 

4 yV=X.p 

5 ify = NIL e x.chave < y.chave 

6 Cur(H, x,y) 

7 CAscADING-CUT(H, 1y) 

8 ifO x.chave < H.min.chave 

9 Hmin =x 

Cur(H, x,y) 

1 remover x da lista de filhos de y decrementando y.grau 
2 adicionar x à lista de raízes de H 

3 X.p = NIL 

4 x.marca = FALSE 


CAscAaDING-CUT(H, y) 


il Z=y.p 

2 if z = NIL 

3 if y.marca == FALSE 

4 y.marca = TRUE 

5 else cuT(H,y, z) 

6 CAscADING-CUT(H, z) 


O procedimento Fig-Hrar-Decrease-Key funciona da maneira descrita a seguir. As linhas 1-3 asseguram que a nova 
chave não é maior que a chave atual de x, e designam a nova chave a x. Se x é uma raiz ou se x.chave > y.chave, 
onde y é pai de x, então não precisa ocorrer nenhuma mudança estrutural, já que a ordenação por heap de mínimo não 
foi violada. As linhas 4-5 testam essa condição. 

Se a ordenação por heap de mínimo foi violada, muitas mudanças podem ocorrer. Começamos cortando x na 
linha 6. O procedimento Cur “corta” a ligação entre x e seu pai y, fazendo de x uma raiz. 

Usamos os atributos marca para obter os limites de tempo desejados. Eles registram uma pequena fração da 
história de cada nó. Suponha que os eventos a seguir tenham ocorrido com o nó x: 


1. emalgum momento, x era uma raiz, 
2. depois x foi ligado (foi feito filho de) a outro nó, 
3. então dois filhos de x foram removidos por cortes. 


Tão logo o segundo filho tenha sido perdido, cortamos x de seu pai, fazendo dele uma nova raiz. O atributo 
x.marca é rrur se as etapas 1 e 2 ocorreram e um filho de x foi cortado. Então, o procedimento CUT limpa x.marca na 
linha 4, já que ele executa a etapa 1. (Agora, podemos ver por que a linha 3 de Frs-Hear-Lisk limpa y.marca: o nó y está 
sendo ligado a um outro nó e, assim, a etapa 2 está sendo executada. Na próxima vez que um filho de y for cortado, 
y.marca será definido como rue.) 

Ainda não terminamos, porque x poderia ser o segundo filho cortado de seu pai y, desde o tempo em que y esteve 
ligado a outro nó. Portanto, a linha 77 de Fis-Hear-Decrease-Key executa uma operação de corte em cascata emy. Se y é 
uma raiz, então o teste na linha 2 de Cascanino-Cur faz o procedimento simplesmente retornar. Se y for não marcado, o 
procedimento o marca na linha 4, já que seu primeiro filho acabou de ser cortado, e retorna. Contudo, se y for 
marcado, ele acabou de perder seu segundo filho; y é cortado na linha 5, e Cascapino-Cur chama a si mesmo 
recursivamente na linha 6 para o pai de y, z. O procedimento Cascapinc-Cur sobe a árvore recursivamente até encontrar 
uma raiz ou um nó não marcado. 

Tão logo tenham ocorrido todos os cortes em cascata, as linhas 8-9 de Fis-Hear-Decrease- Key terminam atualizando 
H.min se necessário. O único nó cuja chave mudou foi o nó x, já que sua chave decresceu. Assim, o novo nó mínimo é 
o nó original ou é o nó x. 


A Figura 19.5 mostra a execução de duas chamadas a Fis-Hear-Decrease-Key, começando com o heap de 
Fibonacci mostrado na Figura 19.5(a). A primeira chamada, mostrada na Figura 19.5(b), não envolve nenhum corte em 
cascata. A segunda chamada, mostrada nas Figuras 19.5(c)-(e), invoca dois cortes em cascata. 

Agora, mostraremos que o custo amortizado de Fis-Hrar-Decrease-Key é apenas O(1). Começamos determinando 
seu custo real. O procedimento Fis-Hrar-Decrease-Key demora o tempo O(1), mais o tempo para executar os cortes em 
cascata. Suponha que uma determinada invocação de Fis-Hrar-Decrease-Key resulte em c chamadas de Cascapina-Cur (a 
chamada feita da linha 7 de Fig-Hear-Decrease-Key seguida por c - 1 chamadas recursivas de Cascapinc-Cur). Cada 
chamada de Cascaprno-Cur demora o tempo O(1) sem incluir as chamadas recursivas. Assim, o custo real de Fis-Hear- 
Decrease-Key, incluindo todas as chamadas recursivas, é O(c). 

Em seguida, calculamos a mudança no potencial. Denotamos por H o heap de Fibonacci imediatamente antes da 
operação de Fis-Hear-Decrease-Key. A chamada a Cur na linha 6 de Fis-Hear-Decrease-Key cria uma nova árvore 
enraizada no nó x e limpa o bit de marcação de x (que pode já ter sido Farse). Cada chamada recursiva de Cascapina- 
Cur, com exceção da última, corta um nó marcado e limpa o bit de marcação. Depois disso, o heap de Fibonacci 
contém t(H) + c árvores (as t(H) árvores originais, c - 1 árvores produzidas por cortes em cascata e a árvore com raiz 
emx) e no máximo m(H) - c + 2 nós marcados (c - 1 foram desmarcados por cortes em cascata, e a última chamada 
de Cascaprno-Cur pode ter marcado um nó). Então, a mudança no potencial é no máximo 


H.min H.min 


a - 


Figura 19.5 Duas chamadas de Fis-Heap-decrease-Key. (a) O heap de Fibonacci inicial. (b) O nó comchave 46 tem sua chave 
decrementada para 15. O nó se torna uma raiz, e seu pai (com chave 24), que antes não estava marcado, se torna marcado. (c)-(e) O nó 
comchave 35 temsua chave decrementada para 5. Na parte (c), o nó, agora com chave 5, se torna uma raiz. Seu pai, com chave 26, está 
marcado, e assim ocorre um corte em cascata. O nó com chave 26 é cortado de seu pai e transformado em uma raiz não marcada em (d). 
Ocorre outro corte em cascata, já que o nó com chave 24 também está marcado. Esse nó é cortado de seu pai e trans formado em uma raiz 
não marcada na parte (e). Os cortes em cascata paramnesse ponto, já que o nó comchave 7 é uma raiz. (Ainda que esse nó não fosse 
uma raiz, Os cortes em cascata parariam, visto que ele é não marcado.) A parte (e) mostra o resultado da operação Frs-Hear-decrease-Key, 
com H.min apontando para o novo nó mínimo. 


(CH) + c)+ 2om(H) - c+ 2))- (MM) + 2m(D)=4-c. 


Assim, o custo amortizado de Fis-Hear-DecreAsE-KEY É No máximo 


Ac) +4-c=0O(1), 


já que podemos ajustar a escala das unidades de potencial para dominar a constante oculta em O(c). 

Agora, você pode ver por que definimos a função potencial para incluir um termo que é duas vezes o número de 
nós marcados. Quando um nó marcado y é cortado por uma operação de corte em cascata, seu bit de marcação é 
limpado, o que reduz duas unidades de potencial. Uma unidade de potencial paga o corte e a limpeza do bit de 
marcação, e a outra unidade compensa o aumento de uma unidade no potencial devido à transformação do nó y em 


uma raiz. 


Eliminando um nó 


O pseudocódigo a seguir elimina um nó de um heap de Fibonacci de n nós no tempo amortizado O(D(n)). 
Supomos que não há nenhum valor de chave -co no heap de Fibonacci. 


FrB-HEAP-DELETE(H, x) 
1 FrB-HEAP-DECREASE-KEY(H, x, —00) 
Z FrB-HeaPp-ExTRACT-MIN(H) 


Fip-Hear-DeLere faz de x o nó mínimo no heap de Fibonacci dando a ele uma chave exclusiva pequena de -o0. 
Então, o procedimento Fis-Hear-Exrracr-Min remove o nó x do heap de Fibonacci. O tempo amortizado de Fis-Hear- 
Decere é a soma do tempo amortizado O(1) de Fis-Hear-Decrease-Key com o tempo amortizado O(D(n)) de Fis-Hear- 
Exrracr-Min. Como veremos na Seção 19.4 que D(n) = O(lg n), o tempo amortizado de Frs-Hear-Decere é O(lg n). 


Exercícios 


19.3-1 Suponha que uma raiz x em um heap de Fibonacci esteja marcada. Explique como x se tornou uma raiz 
marcada. Demonstre que, para a análise, não importa que x esteja marcada, ainda que ela não seja uma raiz 
que primeiro foi ligada a outro nó e depois perdeu um filho. 


19.3-2 Justifique o tempo amortizado O(1) de Fis-Hear-Decrease-Key como um custo médio por operação, usando 
análise agregada. 


19.4 LimirANDO O GRAU MÁXIMO 


Para provar que o tempo amortizado de Fis-Hzap-Exrracr-Min € Fig-Hear-DeLere é O(lg 1), devemos mostrar que o 
limite superior D(n) para o grau de qualquer nó de um heap de Fibonacci de n nós é O(lg n). Em particular, 
mostraremos que D(n) < logn , onde é a razão áurea, definida na equação (3.24) como 


ge(lAE)/ 2=1,6188B..s 


A chave para a análise é dada a seguir. Para cada nó x dentro de um heap de Fibonacci, defina tamanho(x) como 
o número de nós, incluindo o próprio x, na subárvore com raiz em x. (Observe que x não precisa estar na lista de raízes 
— ele pode ser absolutamente qualquer nó.) Mostraremos que tamanho(x) é exponencial em relação a x.grau. 
Lembre-se de que x.grau é sempre mantido como uma medida precisa do grau de x. 


Lema 19.1 


Seja x qualquer nó em um heap de Fibonacci, e suponha que x.grau = k. Seja Y,, Y» ..., Y, à série de filhos de x na 
ordem em que eles foram ligados a x, desde o mais antigo até o mais recente. Então, y,.grau > 0 e y.grau>i-2 para 
i=2,3,..,K. 


Prova Obviamente, y,.grau > 0. 

Para i > 2, observamos que, quando y, foi ligado a x, todos os y,, Y,, ..., Y; - 1 eram filhos de x e, assim, também 
devemos ter tido x.grau > i - 1. Como o nó y, é ligado a x (por Consocinare) somente se x.grau = y,.grau, devemos ter 
tido também ;.grau > i - 1 naquele momento. Desde então, o nó y, perdeu no máximo um filho, já que ele teria sido 
cortado de x (por Cascapinc-Cur) se tivesse perdido dois filhos. Concluímos que y,.grau > i - 2. 


Por fim, chegamos à parte da análise que explica o nome “heaps de Fibonacci”. Lembre-se de que, na Seção 3.2, 
vimos que, para k = 0, 1, 2,..., o k-ésimo número de Fibonacci é definido pela recorrência 


Ô se de= O, 
E =41 see= |, 
Es TEs SORAZ 


O lema a seguir dá outro jeito para expressar F. 


Lema 19.2 


Para todos os inteiros k > 0, 


Prova A prova é por indução em relação a k. Quando k = 0, 
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Agora, consideramos a hipótese indutiva de que 1, + 1=1 + 
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Lema 19.3 


Para todos os inteiros k > 0, o (k + 2)-ésimo número de Fibonacci satisfaz F,+2 > k. 


Prova A prova é por indução em relação a k. Os casos-base são para k = O e k = 1. Quando k = 0 temos F,= 1 =, 
e quando k = 1 temos F,=2 > 1,619 >1. A etapa indutiva é para k > 2, e consideramos que F +2 >: para i = 0,1, 
k-1. Lembre-se de que é a raiz positiva da equação (3.23), x, =x + 1. 


..., 


Assim, temos 
Fo E Fark, 
> q! + q!” (pela hipótese de indução) 
= $A6+1) 
= q? . &? (pela equação (3.23)) 
= dr 


O lema a seguir e seu corolário concluem a análise. 


Lema 19.4 


Seja x um nó em um heap de Fibonacci e seja k = x.grau. Então, tamanho(x) > F,+2>, onde q = (1+ V5y 2. 


Prova Seja s, o tamanho mínimo possível de um nó de grau k em qualquer heap de Fibonacci. Trivialmente, s,= 1 es, 
= 2. O número s, é, no máximo, tamanho(x), e, como adicionar filhos a um nó não pode reduzir o tamanho do nó, o 
valor de s, aumenta monotonicamente com k. Considere algum nó z, em qualquer heap de Fibonacci, tal que z.grau = k 
e tamanho(z) = s,. Como s, < tamanho(x), calculamos um limite inferior para tamanho(x) calculando um limite inferior 
para s,. Como no Lema 19.1, sejam y,, Y,, ... , Y, OS filhos de z na ordem em que foram ligados a z. Para limitar s,, 
contamos um para o próprio z e um para o primeiro filho y, (para o qual tamanho (y,) > 1), o que dá 


tamanho(x) > s 
k 


Es 2 ai » ai 


i=2 
k 


ED a 


1=2 


k 


IV 


onde a última linha decorre do Lema 19.1 (de modo que y,. grau > i - 2) e da monotonicidade de s, (de modo que s, 
grau >s-2), 

Agora, mostramos por indução a k que s, > F, + 2 para todos os inteiros não negativos k. Os casos-base, para k = 
0 ek = são triviais. Para a etapa indutiva, consideramos que k >2 e que s,>F,+?2 parai=0,1,...,k- 1. Temos 


k 
Se Ei 2 Ei : So 
o 
> 2424, 
a 
= 45 
i=0 
= Lo (pelo Lema 19.2) 
= 4 (pelo Lema 19.3). 


Assim, mostramos que tamanho(x)>s,>F,+2>. 


Corolário 19.5 


O grau máximo D(n) de qualquer nó em um heap de Fibonacci de n nós é O(lg nn). 


Prova Seja x um nó em um heap de Fibonacci de n nós e seja k = x.grau. Pelo Lema 19.4, temos n > tamanho(x) > &. 
Tomando logaritmos-base, temos k < log n. (De fato, como k é um inteiro, k < logs n.) Assim, o grau máximo D(n) de 
qualquer nó é O(lg n). 


Exercícios 


19.4-1 O professor Pinóquio afirma que a altura de um heap de Fibonacci de n nós é Of(lg n). Mostre que o 
professor está equivocado exibindo, para qualquer inteiro positivo n, uma sequência de operações de heaps 
de Fibonacci que cria um heap de Fibonacci consistindo em apenas uma árvore que é uma cadeia linear de n 
nós. 


19.4-2 Suponha que generalizamos a regra do corte em cascata para cortar um nó x de seu pai logo que ele perde 
seu k-ésimo filho, para alguma constante inteira k. (A regra da Seção 19.3 usa k = 2.) Para quais valores de k 
D(n) = O(lg n)? 


Problemas 


19-1 Implementação alternativa da eliminação 


O professor Pisano propôs a seguinte variante do procedimento Fi-Hear-DeLere, afirmando que ele é 
executado com maior rapidez quando o nó que está sendo eliminado não é o nó apontado por H.min. 


Pisano-DELETE(H, x) 


1ifx=Hmin 

2 FrB-HeaPp-ExTRACT-MIN(H) 

Selsey=x.p 

4 if y = NIL 

5 Cur(H, x,y) 

6 CAscADING-CUT(H, y) 

Fá adicionar a lista de filhos de x à lista de raízes de H 
8 remover x da lista de raízes de H 


a. A afirmação do professor de que esse procedimento é executado mais rapidamente se baseia em parte na 
hipótese de que a linha 77 pode ser executada no tempo real O(1). O que está errado com essa hipótese? 


b. Dê um bom limite superior para o tempo real de Pisano-DeLere quando x não é H.min. Seu limite deve ser 
expresso em termos de x.grau e do número c de chamadas ao procedimento Cascapino-Cur. 


c. Suponha que chamamos Pisano-DeLere(H, x), e seja Fº o heap de Fibonacci resultante. Considerando que 
o nó x não é uma raiz, limite o potencial de Nº em termos de x.grau, c, ((H) e m(H). 


d. Conclua que o tempo amortizado de Pisano-Deere não é assintoticamente melhor que o de Frs-Hear- 
Deere, mesmo quando x £ H.min. 


19-2 Arvores binomiais e heaps binomiais 


A árvore binomial B, é uma árvore ordenada (veja Seção B.5.2) definida recursivamente. Como mostra a 
Figura 19.6(a), a árvore binomial B, consiste em um único nó. A árvore binomial B, consiste em duas árvores 


binomais 5,-! que são ligadas uma à outra de modo que a raiz de uma é o filho mais à esquerda da raiz da 
outra. A Figura 19.6(b) mostra as árvores bmomiais de B, a B,. 


a. Mostre que, para a árvore binomial B;, 
1. existem 2: nós, 
2. a altura da árvore é k, 


k 
i 


existem exatamente nós na profundidade i para i=0,1,...,k,e 


4. a raiz tem grau k, que é maior do que o de qualquer outro nó; além do mais, como a Figura 19.6(c) 
mostra, se numerarmos os filhos da raiz da esquerda para a direita por k - 1,k - 2,...,0,0 filho i será a 
raiz da subárvore B.. 


Um heap binomial H é um conjunto de árvores binomiais que satisfaz as seguintes propriedades: 

1. Cada nó tem uma chave (como um heap de Fibonacci). 

2. Cada árvore binomial em H obedece à propriedade de heap de mínimo. 

3. Para qualquer inteiro não negativo k, há no máximo uma árvore binomial em H cuja raiz tem grau X. 


b. Suponha que um heap binomial H tenha um total de n nós. Discuta a relação entre as árvores binomiais 
que H contém e a representação binária de n. Conclua que H consiste no máximo em lg n + 1 árvores 
bimomiais. 


Suponha que representemos um heap binomial da maneira descrita a seguir. O esquema do filho à esquerda, 
irmão à direita da Seção 10.4, representa cada árvore binomial dentro de um heap binomial. Cada nó contém 
sua chave; ponteiros para seu pai, para seu filho à extrema esquerda e para o irmão imediatamente à sua 
direita (esses ponteiros são nr quando adequado); e seu grau (como nos heaps de Fibonacci, o número de 
filhos que ele tem). As raízes formam uma lista de raízes simplesmente ligada, ordenada pelos graus das raízes 
(de baixo para o alto) e acessamos o heap binomial por um ponteiro para o primeiro nó da lista de raízes. 
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Figura 19.6 (a) Definição recursiva da árvore binomial B«. Os triângulos representam subárvores enraizadas. (b) As árvores binomiais B, 
a B,. As profundidades dos nós em B,são mostradas. (c) Outro modo de examinar a árvore binomial Br. 


19-3 


Cc. 


Complete a descrição de como representar um heap binomial (isto é, nome dos atributos, descreva 
quando os tributos têm o valor nie defina como a lista de raízes é organizada) e mostre como 
implementar as mesmas sete operações em heaps binomiais como este capítulo as implementou em heaps 
de Fibonacci. Cada operação deve ser executada no tempo do pior caso O(lg nn), onde n é o número de 
nós no heap binomial (ou, no caso da operação Union, nos dois heaps binomiais que estão sendo unidos). 
A operação Make-Hrar deve levar tempo constante. 


Suponha que tivéssemos de implementar somente as operações de heaps intercaláveis em um heap de 
Fibonacci (isto é, não implementamos as operações Decrease-Kr you Deere). Quais seriam as 
semelhanças entre as árvores em um heap de Fibonacci e as árvores em um heap binomial? Quais seriam 
as diferenças? Mostre que o grau máximo em um heap de Fibonacci de n nós seria no máximo lg n. 


O professor McGee criou uma nova estrutura de dados baseada em heaps de Fibonacci. Um heap de 
McGee tem a mesma estrutura de um heap de Fibonacci e suporta apenas as operações de heaps 
intercaláveis. As implementações das operações são idênticas às de heaps de Fibonacci, exceto que, em 
sua última etapa, a inserção e a união consolidam a lista de raízes. Quais são os tempos de execução do 
pior caso das operações em heaps de McGee? 


Outras operações de heaps de Fibonacci 


19-4 


Desejamos ampliar um heap de Fibonacci H para suportar duas novas operações sem mudar o tempo de 
execução amortizado de quaisquer outras operações de heaps de Fibonacci. 


a. A operação Fis-Hear-CHance-Key(H, x, k) troca a chave do nó x pelo valor k. Dê uma implementação 
eficiente de Fis-Hear-CHancr-Key € analise o tempo de execução amortizado de sua implementação para 
Os casos nos quais k é maior, menor ou igual à x.chave. 


b. Dê uma implementação eficiente de Fis-Hear-Prune(H, 7), que elimme q = min(r,H.n) nós de H. Você 
pode escolher quaisquer nós q para eliminar. Analise o tempo de execução amortizado de sua 
implementação. (Sugestão: Talvez seja necessário modificar a estrutura de dados e a função potencial.) 


Heaps 2-3-4 


O Capítulo 18 apresentou a árvore 2-3-4, na qual todo nó interno (exceto, possivelmente, a raiz) tem dois, 
três ou quatro filhos e todas as folhas têm a mesma profundidade. Neste problema, implementaremos heaps 
2-3-4, que suportam as operações de heaps intercaláveis. 


Os heaps 2-3-4 são diferentes das árvores 2-3-4 nos seguintes aspectos. Nos heaps 2-3-4, apenas as folhas 
armazenam chaves, e cada folha x armazena exatamente uma chave no atributo x.chave. As chaves nas folhas 
podem estar em qualquer ordem. Cada nó interno x contém um valor x.pegueno que é igual à menor chave 
armazenada em qualquer folha na subárvore com raiz em x. A raiz 7 contém um atributo raltura que dá a 
altura da árvore. Finalmente, o projeto prevê que heaps 2-3-4 sejam mantidos na memória principal, de modo 
que leituras e gravações em disco não são necessárias. 


Implemente as seguintes operações de heaps 2-3-4. Cada uma das operações nas partes (a)-(e) deve ser 
executada no tempo O(lg n) em um heap 2-3-4 com n elementos. A operação Union na parte (f) deve ser 
executada no tempo O(lg nn), onde n é o número de elementos nos dois heaps de entrada. 


a. Minimum, que retorna um ponteiro para a folha com a menor chave. 

b. Decrease-Key, que diminui a chave de uma dada folha x para um dado valor k < x.chave. 
c. Insert, que insere a folha x com a chave k. 

d. Deere, que elimina uma dada folha x. 

e. Exrracr-Min, que extrai a folha com a menor chave. 


fi Union, que une dois heaps 2-3-4, retorna um único heap 2-3-4 e destrói os heaps de entrada. 


NorTas DO CAPÍTULO 


Fredman e Tarjan [114] apresentaram os heaps de Fibonacci em uma artigo que também descrevia a aplicação de 
heaps de Fibonacci aos problemas de caminhos mais curtos de origem única, caminhos mais curtos de todos os pares, 
emparelhamento bipartido ponderado e o problema da árvore geradora mínima. 

Subsequentemente, Driscoll Gabow, Shrairman e Tarjan [96] desenvolveram “heaps relaxados” como uma 
alternativa para os heaps de Fibonacci. Eles criaram duas variedades de heaps relaxados. Uma dá os mesmos limites de 
tempo amortizado que os heaps de Fibonacci. A outra permite a execução de Decrease-Key no tempo do pior caso (não 
amortizado) O(1) e a execução de Exrracr-Min e Deere no tempo do pior caso O(lg n). Os heaps relaxados também 
apresentam algumas vantagens em relação aos heaps de Fibonacci em algoritmos paralelos. 


Veja também as notas do Capítulo 6 para outras estruturas de dados que suportam operações Decrease-Key 
rápidas quando a sequência de valores retornada por chamadas Exrracr-Min são monotonicamente crescentes com o 
tempo e os dados são inteiros dentro de uma faixa específica. 


1 Como mencionado na introdução da Parte V, nossos heaps intercaláveis padrões são heaps de mínimos intercaláveis e, assim, as 
operações Minimum, Extract-Min € Decrease-Key se aplicam. Alternativamente, poderíamos definir um heap de máximo intercalável com as 
operações Maximum, Extract-Max € Increase-Key. 


») () ÁRVORES DE VAN EMDE BOAS 


Em capítulos anteriores, vimos estruturas de dados que suportam as operações de uma fila de prioridades — heaps 
binários no Capítulo 6, árvores vermelho-preto no Capítulo 13,1 e heaps de Fibonacci no Capítulo 19. Em cada uma 
dessas estruturas de dados, no mínimo uma operação importante demorou o tempo O(lg nn), seja do pior caso, seja 
amortizado. Na verdade, como cada uma dessas estruturas de dados baseia suas decisões em comparação de chaves, 
o limite inferior (n lg n) para ordenação na Seção 8.1 nos diz que, no mínimo, uma operação levará o tempo (lg nn). Por 
quê? Se pudéssemos executar as operações insert E ExrracT-MIN NO tempo o(lg nn), poderíamos ordenar n chaves no 
tempo o(n lg n) executando em primeiro lugar n operações nserr, seguidas por n operações ExrracT-MIN. 

Contudo, no Capítulo 8, vimos que às vezes podemos explorar informações adicionais sobre as chaves para 
ordenar no tempo o(n lg n). Em particular, com ordenação por contagem podemos ordenar n chaves, cada uma um 
inteiro na faixa O a k, no tempo (n + k), que é (n) quando k = O(n). 

Visto que podemos evitar o limite inferior (n lg n) para ordenação quando as chaves são inteiros em uma faixa 
limitada, você bem poderia imaginar se poderíamos executar cada uma das operações de fila de prioridades no tempo 
o(lg n) em um cenário semelhante. Veremos, neste capítulo, que podemos: árvores de van Emde Boas suportam as 
operações de filas de prioridades e algumas outras, cada uma no tempo do pior caso O(lg lg n). O senão é que as 
chaves devem ser inteiros na faixa O a n — 1 e duplicatas não são permitidas. 

Especificamente, árvores de van Emde Boas suportam cada uma das operações de conjunto dinâmico 
apresentadas na lista da página 230 — Searcn, Insert, DELETE, MiniMuUM, MAxIMUM, SUCCESSOR E PREDECESSOR — NO tempo 
O(lg lg n). Neste capítulo, omitiremos a discussão de dados satélites e focalizaremos somente armazenamento de 
chaves. Como nos concentramos em chaves e não permitimos o armazenamento de chaves duplicadas, em vez de 
descrever a operação Searcn implementaremos a operação mais simples Memser (S, x), que retorna um booleano que 
indica se o valor x está atualmente no conjunto dinâmico S. 

Até aqui, usamos o parâmetro n para duas finalidades distintas: o número de elementos no conjunto dinâmico e a 
faixa dos valores possíveis. Para evitar qualquer confusão, daqui em diante usaremos n para denotar o número de 
elementos atualmente no conjunto e u para a faixa de valores possíveis, de modo que cada operação de árvore de van 
Emde é executada no tempo O(lg lg 1). Denomimnamos o conjunto (0, 1, 2,..., u - 1); universo de valores que podem 
ser armazenados e u o tamanho do universo. Em todo este capítulo, supomos que u é uma potência exata de 2, isto 
é, u = 2k para algum inteiro k > 1. 

A Seção 20.1 começa examinando algumas abordagens simples que nos conduzirão na direção certa. 
Aprimoramos essas abordagens na seção 20.2 introduzindo estruturas proto-van Emde Boas que são recursivas, mas 
não cumprem nossa meta de operações no tempo O(lg lg u). A Seção 20.3 modifica as estruturas proto-van Emde 
Boas para desenvolver árvores de van Emde Boas e mostra como implementar cada operação no tempo O(lg lg u). 


20.1 ABORDAGENS PRELIMINARES 


Nesta seção, examinaremos várias abordagens para armazenar um conjunto dinâmico. Embora nenhuma alcance 
os limites de tempo O(lg lg wu) que desejamos, entenderemos um pouco mais sobre árvores de van Emde Boas, o que 
nos ajudará mais adiante neste capítulo. 


Endereçamento direto 


Como vimos na Seção 11.1, o endereçamento direto nos dá a abordagem mais simples para armazenar um 
conjunto dinâmico. Visto que neste capítulo nos preocupamos somente com armazenamento de chaves, podemos 
simplificar a abordagem do endereçamento direto para armazenar o conjunto dinâmico como um vetor de bits, como 
discutimos no Exercício 11.1-2. Para armazenar um conjunto dinâmico de valores do universo (0, 1, 2,,.., u- 1), 
mantemos um arranjo A[0. .u- 1] de u bits. A entrada 4[x] contém um 1 se o valor x estiver no conjunto dinâmico, 
caso contrário contém um 0. Embora possamos executar cada uma das operações Insert, DELETE € MEMBER NO tempo O 
(1) com um vetor de bits, cada uma das operações restantes — Minimum, Maximum, Successor € PrepEcEssor — leva 
tempo (u) no pior caso porque poderíamos ter de varrer  (u) elementos.2 Por exemplo, se um conjunto contém 
somente os valores O e u - 1, para encontrar o sucessor de O teríamos de varrer as entradas 1 a u - 2 antes de 
encontrar um 1 em À [u - 1]. 


Sobrepondo uma estrutura de árvore binária 


Podemos abreviar longas varreduras no vetor de bits sobrepondo a ele uma árvore binária de bits. A Figura 20.1 
mostra um exemplo. As entradas do vetor de bits formam as folhas da árvore binária, e cada nó interno contém um 1 se 
e somente se qualquer folha em sua subárvore contém um 1. Em outras palavras, o bit armazenado em um nó interno é 
o OR (OU) lógico de seus dois filhos. 
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Figura 20.1 A árvore binária de bits sobreposta a um vetor de bits que representa o conjunto (2; 3; 4; 5; 7; 14; 15) quando u = 16. Cada 
nó interno contém um 1 se e somente se alguma folha em sua subárvore contém um 1. As setas mostram o caminho seguido para 
determinar o predecessor de 14no conjunto. 


As operações que levaram o tempo (1) do pior caso com um vetor de bits não adornado agora usam a estrutura 
de árvore: 


* | Para encontrar o valor mínimo no conjunto, comece na raiz e dirija-se para baixo até as folhas, sempre tomando o 
nó à extrema esquerda que contém um 1. 

* Para encontrar o valor máximo no conjunto, comece na raiz e dirija-se para baixo até as folhas, tomando sempre o 
nó à extrema direita que contém um 1. 

* | Para encontrar o sucessor de x, comece na folha indexada por x e prossiga para cima na direção da raiz até entrar 
em um nó pela esquerda e esse nó tiver um 1 em seu filho à direita z. Então, desça pelo nó z, tomando sempre o nó 
à extrema esquerda que contém um 1 (isto é, ache o valor mínimo na subárvore com raiz no filho à direita z). 

* Para encontrar o predecessor de x, comece na folha indexada por x e continue para cima na direção da raiz até 
entrar em um nó pela direita e esse nó tiver um 1 em seu filho à esquerda z. Então, desça pelo nó z, tomando 
sempre o nó à extrema direita que contém um 1 (isto é, ache o valor máximo na subárvore com raiz no filho à 
esquerda z). 


A Figura 20.1 mostra o caminho percorrido para encontrar o predecessor, 7, do valor 14. 

Também aumentamos as operações Inserr e Derere adequadamente. Quando inserimos um valor, armazenamos um 
1 em cada nó no caminho simples ascendente da folha adequada até a raiz. Quando eliminamos um valor, percorremos 
o caminho ascendente da folha adequada até a raiz, recalculando o bit em cada nó interno no caminho como o OU 
(OR) lógico de seus dois filhos. Visto que a altura da árvore é lg u e cada uma das operações acima executa no máximo 
uma passagem ascendente pela árvore e no máximo uma passagem descendente, cada operação demora o tempo O(lg 
u) no pior caso. 

Essa abordagem é apenas marginalmente melhor do que simplesmente usar uma árvore vermelho-preto. Ainda 
podemos executar a operação Memper no tempo O(1), ao passo que executar uma busca em uma árvore vermelho- 
preto demora o tempo Ollg n). Então, novamente, se o número n de elementos armazenados é muito menor que o 
tamanho u do universo, a árvore vermelho-preto será mais rápida para todas as outras operações. 


Sobrepondo uma árvore de altura constante 


O que acontece se sobrepusermos uma árvore com grau maior? Vamos supor que o tamanho do universo seja u = 
22k para algum inteiro k, de modo que Nu é um inteiro. Em vez de sobrepor uma árvore binária ao vetor de bits, 
sobrepomos uma árvore de grau Vu. A Figura 20.2(a) mostra tal árvore para o mesmo vetor de bits da Figura 20.1. A 
altura da árvore resultante é sempre 2. 

Como antes, cada nó interno armazena o Or (Ou) lógico dos bits dentro de sua subárvore, de modo que os Vu nós 
internos na profundidade 1 resumem cada grupo de Nu valores. Como a Figura 20.2(b) demonstra, podemos imaginar 
esses nós como um arranjo resumo, summary [0..Nu-1] , onde summary [i] contém um 1 se e somente se o 
subarranjo 4 [iNu..(i+1)Nu-1]] contém um 1. Denominamos esse subarranjo de Nu bits de A o i-ésimo cluster (grupo). 
Para um dado valor de x, o bit 4[x] aparece no grupo número x / Nu. Agora, Inserr torna-se uma operação de tempo 
O(1) para inserir x, defina 4[x] e summaryx / Nu como 1. Podemos usar o arranjo summary para executar cada uma 
das operações Minimum, Maximum, Successor, PREDECESSOR € DELETE NO tempo O(Nu): 

* Para encontrar o valor mínimo (máximo), encontre a entrada à extrema esquerda (à extrema direita) em summary 

que contém um 1, digamos summaryi e depois execute uma busca linear dentro do i-ésimo grupo para o 1 à 

extrema esquerda (à extrema direita). 
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Figura 20.2 (a) Árvore de grau Vu sobreposta ao mesmo vetor de bits da Figura 20.1. Cada nó intemo armazena o OU (OR) lógico dos 


bits emsua subárvore. (b) Uma vista da mesma estrutura, porémna qual os nós >intemos na profundidade 1 são tratados como um 
arranjo summary 0.. Nu-1, onde summary i é o OU (OR) lógico do subarranjo 4 [iNu.. (i+1) Nu-1]. 


* Para encontrar o sucessor (predecessor) de x, primeiro execute uma busca à direita (à esquerda) dentro de seu 
grupo. Se encontrar um 1, essa posição dá o resultado. Caso contrário, seja i = x / Nu e execute uma busca à 
direita (à esquerda) dentro do arranjo summary partindo do índice i. A primeira posição que contém um 1 dá o 
índice de um grupo. Execute uma busca dentro desse grupo para o 1 à extrema esquerda (à extrema direita). Essa 
posição contém o sucessor (predecessor). 

* Para eliminar o valor x, seja i = x Nu . Defina A[x] como 0 e summary[i] como o Ou (Or) lógico dos bits no i- 
ésimo grupo. 

Em cada uma dessas operações, executamos a busca em, no máximo, dois grupos de Nu bits, mais o arranjo 
summary e, assim, cada operação leva o tempo O(Ni1). 
À primeira vista, parece que nosso progresso foi negativo. Sobrepor a árvore binária nos deu operações de tempo 

O(lg 1u), que são assintoticamente mais rápidas do que as de tempo O (Nu). Contudo, veremos que usar uma árvore de 

grau Vu é uma ideia fundamental das árvores de van Emde Boas. Continuaremos nesse caminho na próxima seção. 


Exercícios 
20.1-1 Modifique as estruturas de dados nesta seção para suportar chaves duplicadas. 
20.1-2 Modifique as estruturas de dados nesta seção para suportar chaves que têm dados satélites associados. 


20.1-3 Observe que, usando as estruturas nesta seção, o modo como encontramos o sucessor e o predecessor de 
um valor x não depende de x estar no conjunto no momento em questão. Mostre como encontrar o sucessor 
de x em uma árvore de busca binária quando x não está armazenado na árvore. 


20.1-4 Suponha que, em vez de sobrepor uma árvore de grau Nu, quiséssemos sobrepor uma árvore de grau lia 
onde k > 1 é uma constante. Qual seria a altura de tal árvore e quanto tempo demoraria cada uma das 
operações? 


20.2 UMAESTRUTURA RECURSIVA 


Nesta seção, modificamos a ideia de sobrepor uma árvore de grau Nu a um vetor de bits. Na seção anterior, 
usamos uma estrutura de resumo de tamanho Nu , na qual cada entrada aponta para uma outra estrutura de tamanho 
Vu. Agora, tornamos a estrutura recursiva, reduzindo o tamanho do universo pela raiz quadrada em cada nível de 
recursão. Começando com um universo de tamanho u, fazemos estruturas que contêm Vu = u, itens que, por sua vez, 
contêm estruturas de u ,, itens, que contêm estruturas de 1, itens, e assim por diante, até um tamanho-base de 2 

Por simplicidade, nesta seção consideramos que u = 22 para algum inteiro k, de modo que u, u,», 14--Sejam 
interros. Essa restrição seria bem rigorosa na prática e permitiria somente valores de u na sequência 2, 4, 16, 256, 


65536,.... Na próxima seção, veremos como relaxar essa condição para u = 2% para algum inteiro k. Visto que a 
estrutura que examinamos nesta seção é apenas uma precursora da verdadeira estrutura de árvore de van Emde Boas, 
toleramos essa restrição em favor de um melhor entendimento. 

Lembrando que nossa meta é conseguir tempos de execução de O(lg lg u) para as operações, vamos pensar em 
como poderíamos obter tais tempos de execução. No final da Seção 4.3 vimos que, trocando variáveis, podíamos 
mostrar que a recorrência 


T(n)=2T(Nn))+Ign (20.1) 


tema solução T(n) = O(lg n lg lg n). Vamos considerar ume recorrência semelhante, porém mais simples: 


T(u)=T(Vu)+0(1). (20.2) 


Se usarmos a mesma técnica, troca de variáveis, podemos mostrar que a recorrência (20.2) tem solução T(u) = O(lg lg 
u). Seja m = lg u, de modo que u = 2m e temos 


TO” ) = T(Or + o(1) 
Agora, renomeamos S(m) = T(2m), o que dá a nova recorrência 
S(m) = S(m/2) + O(1). 


Pelo caso 2 do método mestre, essa recorrência tem a solução S(m) = O(lg m). Voltamos a trocar S(m) por T(u), 
o que dá T(u) = T(2m) = S(m) = O(lg m) = O(lg Tg uu). 

A recorrência (20.2) guiará a nossa busca por uma estrutura de dados. Projetaremos uma estrutura de dados 
recursiva que é reduzida por um fator de Vu em cada nível de sua recursão. 

Quando uma operação percorre essa estrutura de dados, gasta uma quantidade de tempo constante em cada nível 
antes de executar a recursão para o nível abaixo. Então, a recorrência (20.2) caracteriza o tempo de execução da 
operação. 

Apresentamos agora, um outro modo de pensar sobre como o termo lg lg yu acaba aparecendo na solução da 
recorrência (20.2). Examinando o tamanho do universo em cada nível da estrutura de dados recursiva, vemos a 
sequência u, 1/2, u,/4, u,/8,... Se considerarmos quantos bits precisamos para armazenar o tamanho de universo em 
cada nível, precisamos de lg u no nível superior, e cada nível precisa de metade dos bits do nível anterior. Em geral, se 
começarmos com b bits e dividirmos o número de bits pela metade em cada nível, após lg b níveis, chegaremos a 
apenas um bít. Como b = le u, vemos que, após lg lg u níveis, temos um tamanho de universo igual a 2. 

Voltando a examinar a estrutura de dados na Figura 20.2, determinado valor x reside no grupo número x / Nu. Se 
virmos x como um inteiro binário de lg u bits, aquele número de grupo, x / Nu, é dado pelos (Ig u)/2 bits mais 
significativos de x. Dentro de seu grupo, x aparece na posição x mod Nu, que é dada pelos (lg u)/2 bits menos 
significativos de x. Precisaremos indexar desse modo e, portanto, vamos definir algumas funções que nos ajudarão a 


fazer Isso. 
high(x) = Ê / Jul, 
x mod a ; 


index(x,y) = xNu+y. 


low(x) 


proto — v EB(u) 


estruturaproto — vEB(n/u) e 
Ju estruturasproto — vEB(N/u) 


Figura 20.3 A informação em uma estrutura proto-vEB(u) quando u > 4. A estrutura contém tamanho de universo u, um ponteiro 
summary para uma estrutura proto-vEB (Nu ) e um arranjo cluster 0.. Nu —1 de ponteiros Nu para estruturas proto-vEB (Nu). 


A função high(x) dá os (lg u)/2 bits mais significativos de x, produzindo o número do grupo de x. A função low(x) dá os 
(lg w)/2 bits menos significativos de x e a posição de x dentro de seu grupo. A função index ()) constrói um número de 
elemento a partir de x e y, tratando x como os (lg w)/2 bits mais significativos do número do elemento e y como os (lg 
u)/2 bits menos significativos. Temos a identidade x = index(high(x), low(x)). O valor de u usado por cada uma dessas 
funções será sempre o tamanho de universo da estrutura de dados na qual chamamos a finção, que muda ao descermos 
e entrarmos na estrutura recursiva. 


20.2.1 ESTRUTURAS PROTO-VAN EMDE BOAS 


De acordo com o que indica a recorrência (20.2), vamos projetar uma estrutura de dados recursiva para suportar 
as operações. Apesar de que essa estrutura de dados não conseguirá cumprir nossa meta de tempo O(lg lg u) para 
algumas operações, ela serve como base para a estrutura da árvore de van Emde Boas que veremos na Seção 20.3. 

Para o universo (0, 1, 2,...,u - 1), definimos uma estrutura proto-van Emde Boas (ou estrutura proto-vEB, que 
denotamos por proto-vEB(u) recursivamente, da maneira descrita a seguir. Cada estrutura proto-vEB(u) contém um 
atributo u que dá seu tamanho de universo. Além disso, ela contém o seguinte: 


* Seu=2, então ela é o tamanho-base e contém um arranjo AO. .1 de dois bits. 
* Caso contrário, u = 2» para algum inteiro k > 1, de modo que u > 4. Além do tamanho de universo u, a estrutura 

de dados proto-vEB(u) contém os seguintes atributos, ilustrados na Figura 20.3: 

* um ponteiro denominado summary para uma estrutura proto-vEB (Nu) (resumo) e 

* —umarranjo cluster [0..Nu-1] de Nu ponteiros, cada um para uma estrutura proto-vEB (Nu). 

O elemento x, onde O < x <u, é armazenado recursivamente no grupo numerado high(x) como elemento low(x) dentro 
daquele grupo. 

Na estrutura de dois níveis da seção anterior, cada nó armazena um arranjo resumo de tamanho Nu, no qual cada 
entrada contém um bit. Pelo índice de cada entrada, podemos calcular o índice inicial do subarranjo de tamanho Vu que 
o bit resume. Na estrutura proto-vEB, usamos ponteiros explícitos em vez de cálculos de índices. 

O arranjo summary contém os bits de resumo armazenados recursivamente em uma estrutura proto-vEB, e o 
arranjo cluster contém Vu ponteiros. 

A Figura 20.4 mostra uma estrutura proto-vEB(16) totalmente expandida, que representa o conjunto (2, 3, 4,5, 7, 
14, 15). Se o valor i estiver na estrutura proto-vEB para a qual summary aponta, então o i-ésimo grupo contém algum 
valor no conjunto que está sendo representado. 
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Figura 20.4 Uma estrutura proto-EB(16) que representa o conjunto (2, 3, 4,5, 7, 14, 15). Ela aponta para quatro estruturas proto-vEB(4) 
em cluster0..3, e para uma estrutura resumo, que é também uma proto-vEB(4). Cada estrutura proto-vEB(4) aponta para duas estruturas 
protovEB(2) em cluster 0..1, e para uma resumo proto-vEB(2). Cada estrutura proto-vEB(2) contémapenas umarranjo 40..1 de dois 
bits. As estruturas proto-EB(2) acima de “elementos i,” armazenam bits i e j do conjunto dinâmico propriamente dito, e as estruturas 
proto-vEB(2) acima dos “grupos i,;7” armazenam os bits resumo para os grupos i e jna estrutura proto-vEB(16) do nível superior. Por 
questão de clareza, os retângulos sombreados emtom mais escuro indicam o nível superior de uma estrutura proto-vEB que armazena 
informações de resumo para sua estrutura pai; emtodos os outros aspectos, tal estrutura proto-vEB é idêntica a qualquer outra 
estrutura proto-vEB com o mesmo tamanho de universo. 


Como na árvore de altura constante, cluster[i] representa os valores iNu de (i + 1) Nu- 1, que forma o i-ésimo 
grupo. 

No nível-base, os elementos dos conjuntos dinâmicos propriamente ditos são armazenados em algumas das 
estruturas proto-vEB(2), e as estruturas proto-vEB(2) restantes armazenam bits de resumo. Abaixo de cada uma das 
estruturas bases não summary, a figura indica quais bits tal estrutura armazena. Por exemplo, a estrutura proto-vEB() 
rotulada “elementos 6,7” armazena o bit 6 (0, visto que o elemento 6 não está no conjunto) em seu A[0]” e o bit 7 (1, 
visto que o elemento 77 está no conjunto) em seu A[1]. 

Como os grupos, cada resumo é apenas um conjunto dinâmico com tamanho de universo Nu, portanto 
representamos cada resumo como uma estrutura proto-vEB (Nu). Os quatro bits de resumo para a estrutura proto- 
vEB(16) principal estão à extrema esquerda da estrutura proto-vEB(4) e, afinal, aparecem em duas estruturas proto- 
vEB(). Por exemplo, a estrutura proto-vEB(2) rotulada “grupos 2,3” tem 4[0] = 0, o que indica que o grupo 2 da 
estrutura proto-vEB(I 6) (que contém os elementos 8, 9, 10, 11) é todo O e A[1] = 1, que nos diz que o grupo 3 (que 
contém os elementos 12, 13, 14, 15) tem no mínimo um 1. Cada estrutura proto-vEB(4) aponta para seu próprio 
resumo que, por sua vez, é armazenado como uma estrutura proto-vEB(2). Por exemplo, examine a estrutura proto- 


vEB(). imediatamente à esquerda da estrutura rotulada “elementos 0,1”. Como seu A[0] é 0, ela nos diz que a 
estrutura “elementos 0, 1 é toda 0, e como seu A[1] é 1, sabemos que a estrutura “elementos 2,3” contém no mínimo 
um 1. 


20.2.2 OPERAÇÕES EM UMA ESTRUTURA PROTO-VAN EMDE BOAS 


Agora descreveremos como executar operações em uma estrutura proto-vEB. Em primeiro lugar examinamos as 
operações de consulta — Memper, Minimum € Successor — que não mudam a estrutura proto-vEB. Em seguida 
discutiremos inserTE DELETE. Deixamos Maximum € PrepECESsOR, Que são simétricas em relação a Minimum € Successor, 
respectivamente, para o Exercício 20.2-1. 

Cada uma das operações MemBer, Successor, PrEDECESSOR, INSERT E DeLeTE adota um parâmetro x, juntamente com a 
estrutura proto-vEB V. Cada uma dessas operações considera que O < x < V.u. 


Determinando se um valor está no conjunto 


Para executar Memper(x), precisamos encontrar o bit que corresponde a x dentro da estrutura proto-vEB(2) 
adequada. Podemos fazer isso no tempo Ollg lg u), se evitarmos, totalmente as estruturas summary. O seguinte 
procedimento toma uma estrutura proto-vEB V e um valor x, e retorna um bit que indica se x está no conjunto 
dinâmico mantido por V. 


ProrTo-vEB-MEMBER(V, x) 

1 ifVu== 

2 retum V. A[x] 

3 else return ProTo-vEB-MEmsBER.(V.cluster[high(x)], low(x)) 


O procedimento Proro-vEB-Memegr funciona da maneira descrita a seguir. A linha 1 testa se estamos em um caso- 
base, quando V é uma estrutura proto-vEB(2). A linha 2 trata o caso-base simplesmente retornando o bít de arranjo 4 
adequado. A linha 3 trata o caso recursivo, “perfurando” a estrutura proto-vEB menor adequada. O valor high(x) 
informa qual estrutura proto-vEB(Nu) visitamos, e low(x) determina qual elemento dentro daquela estrutura proto-vEB 
(Nu) estamos consultando. 

Vamos ver o que acontece quando chamamos Proro-Ves-Memeer.V(6) na estrutura proto-vEB(16) na Figura 20.4. 
Visto que high(6) = 1 quando u = 16, executamos recursão na estrutura proto-vEB(4) na parte superior à direita e 
indagamos sobre o elemento low(6) = 2 daquela estrutura. Nessa chamada recursiva, u = 4 e, assim, executamos 
novamente uma recursão. Com u = 4, temos high(2) = 1 e low(2) = O e assim indagamos sobre o elemento O da 
estrutura proto-vEB(2) na parte superior à direita. Essa chamada recursiva revela ser um caso-base e, assim, retorna 
A[0] = O de volta para cima por meio da cadeia de chamadas recursivas. Assim, obtemos o resultado de que Proro-vEB- 
Memper(V, 6) retorna 0, indicando que 6 não está no conjunto. 

Para determinar o tempo de execução de Proro-vEB-Memeer, seja T(u) seu tempo de execução em uma estrutura 
proto-vEB(u). Cada chamada recursiva leva tempo constante, não incluindo o tempo que demoram as chamadas 
recursivas que o procedimento faz. Quando Prorto-vEB-Memeer faz uma chamada recursiva, faz uma chamada em uma 
estrutura proto-vEB (Nu) Assim, podemos caracterizar o tempo de execução pela recorrência T(u) T (Nu) OI), que 
já vimos como recorrência (20.2). Sua solução é T(u) = O(lg lg u) e, portanto, concluímos que Proto-vEB-MemeER é 
executada no tempo O(lg lg u). 


Achando o elemento mínimo 


Agora examinamos como executar a operação Minimum. O procedimento Proro-VeB-Minimum(V) retorna o elemento 
mínimo na estrutura proto-vEB V ouwr se V representar um conjunto vazio. 


Proro-vEB-MINIMUM(V) 


1ifVu== 

2 if V.A[0] == 

3 return O 

4 elseif V.A[1] == 

5 return 1 

6 else retum NIL 

7 else min-cluster = ProTo-vEB-MINIMUM (V.summary) 
8 if min-cluster == NIL 

o return NIL 

10 else offset = ProTOo-vEB-MInIMuUM(V .cluster[min-cluster]) 
11 return index(min-cluster, offset) 


Esse procedimento funciona da seguinte maneira: a linha 1 testa se é o caso-base, que as linhas 2-6 tratam por 
força bruta. As linhas 7-11 tratam o caso recursivo. Primeiro, a linha 7 encontra o número do primeiro grupo que 
contém um elemento do conjunto. Faz isso recursivamente chamando Proro-vEB-Minimum em V.summary, que é uma 
estrutura proto-vEB(Nu). 

A linha 7 atribui esse número de grupo à variável min-cluster. Se o conjunto é vazio, a chamada recursiva retornou 
NIL, e a linha 9 retorna NIL. Caso contrário, o elemento mínimo do conjunto está em algum lugar no grupo número 
min-cluster. A chamada recursiva na linha 10 encontra o deslocamento (offset) dentro do grupo do elemento mínimo 
nesse grupo. Finalmente, a linha 11 constrói o valor do elemento mínimo a partir do número do grupo e do 
deslocamento (offset) e devolve esse valor. 

Embora consultar as informações de resumo nos permita encontrar rapidamente o grupo que contém o elemento 
mínimo, como esse procedimento faz duas chamadas recursivas em estruturas proto-vEB(Nhu), não é executada no 
tempo Ollg lg u) no pior caso. Denotando por T(u) o tempo do pior caso para Proro-vEB-Minimum em uma estrutura 
proto-vEB(u), temos a recorrência 


T(u)=2T(Vu)+ O(1). (20.3) 
ER di Guns do a a aci na don DC qe 
T (2")=2T (Pr) + 0(1). 
Renomeando S(rt) = T (2m) temos 
S(m) = 2S(m/2) + O(1), 


que, pelo caso 1 do método mestre, tem a solução S(m) = (m). Destrocando S(m) para T(u), temos que T(u) = T(Qm) 
= S(m) = (m) = (lg u). Assim, vemos que, por causa da segunda chamada recursiva, Proto-vEB-Minimum é executada no 
tempo (lg u) em vez de no tempo desejado O(lg lg u). 


Encontrando o sucessor 


A operação Successor é ainda pior. No pior caso, faz duas chamadas recursivas, juntamente com a chamada a 
Proto-vEB-MiniMum. O procedimento Proro-vEB-Successor (V, x) retorna o menor elemento na estrutura proto-vEB V, que 
é maior que x ou Ni se nenhum elemento em V é maior que x. O procedimento não exige que x seja um membro do 
conjunto, mas supõe que O < x < Vu. 


Proro-vEB-SuccEssoR(V, X) 


1 EVii== 
Z Hix==0e VA[I| == 
3 retum 1 


4 else return NIL 
5 else offset = ProTO-VEB-SuccessoR(V.cluster[high(x)], low(x)) 
6 if offset = NIL 


7 return index(high(x), offset) 

8 else succ-cluster = ProTO-VEB-Successor(V.summary, high(x)) 
9 if succ-cluster == NIL 

10 return NIL 

11 else offset = ProTo-vEB-MinIMUM(V, cluster[succ-cluster]) 
12 return index(succ-cluster, offset) 


O procedimento Proro-vEB-Successor funciona da maneira descrita a seguir. Como sempre, a linha 1 testa para o 
caso-base, cujas linhas 2-4 tratam por força bruta: o único modo pelo qual x pode ter um sucessor dentro de uma 
estrutura proto-vEB(2) é quando x = O e 4[1] é 1. As linhas 5-12 tratam o caso recursivo. A linha 5 procura um 
sucessor para x dentro do grupo de x, designando o resultado a offset. A linha 6 determina se x tem um sucessor 
dentro de seu grupo; se tiver, a linha 7 calcula e retorna o valor desse sucessor. Caso contrário, temos de procurar em 
outros grupos. A linha 8 designa a succ-cluster o número do próximo grupo não vazio, usando as informações de 
resumo para encontrá-lo. A linha 9 testa se succ-cluster é nr e a linha 10 retorna Nm. se todos os grupos subsequentes 
são vazios. Se succ-cluster é não nu, a linha 11 designa o primeiro elemento dentro daquele grupo a offset, e a linha 12 
calcula e retorna o elemento mínimo naquele grupo. 

No pior caso, Proro-vEB-Successor chama a si mesma recursivamente duas vezes, nas estruturas proto-vEB(N u), € 
faz uma chamada a Proto-vEB-Miximum em uma estrutura proto-vEB(Nu). Assim, a recorrência para o tempo de 


execução do pior caso T(u) de Proto-vEB-Successor é 
oT(Vu)+ e(1g Vu) 
ot (Vu) + o(Igu). 


Podemos empregar a mesma técnica que usamos para a recorrência (20.1) para mostrar que essa recorrência tem a 
solução T(u) = (lg u le lg u). Assim, Proto-vEB-Successor é assintoticamente mais lenta que Proto-vEB-Minimum. 


T(u) 


Inserindo um elemento 


Para inserir um elemento, precisamos inseri-lo no grupo adequado e também atribuir 1 ao bit de resumo para 
aquele grupo. O procedimento Proro-vEB-Inserr (V, x) insere o valor x na estrutura proto-vEB V. 


ProTo-vEB-INSERT (V, x) 

LE Cu== 

2 VAj]=1 

3 else ProTO-vEB-InserT(V.cluster [high.x], low.x)) 
4 ProtTo-vEB-INsERT(V.summary, high(x)) 


No caso-base, a linha 2 define como 1 o bit adequado no arranjo 4. No caso recursivo, a chamada recursiva na 
linha 3 insere x no grupo adequado, e a linha 4 define como 1 o bit de resumo para aquele grupo. 

Como Proro-vEB-Inserr faz duas chamadas recursivas no pior caso, a recorrência (20.3) caracteriza seu tempo de 
execução. Por consequência, Proto-vEB-Inserr é executada no tempo (lg 11). 


Eliminando um elemento 


A operação DELETE é mais complicada que a inserção. Ao passo que sempre podemos definir um bit de resumo 
como 1 quando executamos uma inserção, nem sempre podemos redefinir o mesmo bit como O quando executamos 
uma eliminação. Precisamos determinar se qualquer bit no grupo adequado é 1. Como definimos estruturas proto-vEB, 
teríamos de examinar todos os Vu bits dentro de um grupo para determinar se qualquer deles é 1. Alternativamente, 
poderíamos adicionar um atributo n à estrutura proto-vEB para contar quantos elementos ela tem. Deixamos a 
implementação de Proro-vEB-DeLere para os Exercícios 20.2-2 e 20.2-3. 

É claro que precisamos modificar a estrutura proto-vEB para conseguir que cada operação faça, no máximo, uma 
chamada recursiva. Na próxima seção veremos como fazer isso. 


Exercícios 
20.2-1 Escreva pseudocódigo para os procedimentos Proto-VEB-Maximum € Proto-VEB-PREDECESSOR. 


20.2-2 Escreva pseudocódigo para Proro-vEB-DeLere. O pseudocódigo deve atualizar o bit de resumo adequado 
executando uma varredura nos bits relacionados dentro do grupo. Qual é o tempo de execução do pior caso 
de seu procedimento? 


20.2-3 Adicione o atributo n a cada estrutura proto-vEB, para dar o número de elementos atualmente no conjunto 
que ele representa e escreva pseudocódigo para Proro-vEB-DeLerE que use o atributo n para decidir quando 
atribuir O aos bits de resumo. Qual é o tempo de execução do pior caso do seu procedimento? Quais outros 
procedimentos precisam mudar por causa do novo atributo? Essas mudanças afetam seus tempos de 
execução? 


20.2-4 Modifique a estrutura proto-vEB para suportar chaves duplicadas. 

20.2-5 Modifique a estrutura proto-vEB para suportar chaves que tenham dados satélites associados. 
20.2-6 Escreva pseudocódigo para um procedimento que cria uma estrutura proto-vEB(u). 

20.2-7 Demonstre que, se a linha 9 de Proro-vEB-Miimuu é executada, a estrutura proto-vEB é vazia. 


20.2-8 Suponha que projetemos uma estrutura proto-vEB na qual cada arranjo cluster tenha somente u,,, elementos. 
Quais seriam os tempos de execução de cada operação? 


20.3 AARrvorE DE VAN EmbE Boas 


A estrutura proto-vEB da seção anterior está próxima do que precisamos para conseguir tempos de execução Ollg 
lg u). Ela não alcança esse objetivo porque temos de executar recursão, muitas vezes, na maioria das operações. Nesta 
seção, projetaremos uma estrutura de dados que é semelhante à estrutura proto-vEB, mas armazena uma quantidade 
um pouco maior de informações, o que resulta na eliminação de algumas operações recursivas. 


Na Seção 20.2, observamos que a premissa que adotamos em relação ao tamanho de universo — de u = 22k para 
algum inteiro k — é indevidamente restritiva, já que confina os valores possíveis de u a um conjunto excessivamente 
esparso. Portanto, deste ponto em diante permiítiremos que o tamanho de universo u seja qualquer potência exata de 2 
e, quando Nu não for um inteiro — isto é, se u for um potência ímpar de 2 (u = 22k + 1 para algum inteiro k > 0) — 
então dividiremos os lg u bits de um número em bits mais significativos (lg u)/ 2 e bits menos significativos (lg w)/ 2. Por 


conveniência, denotamos 21g «)/2 (a “raiz quadrada superior” de u) por Yu e 2 Ilg2(a “raiz quadrada inferior” de u) 


1 o dia ) 
por Vu, de modo que u = Va. Yu e, quando u é uma potência par de 2 (u = 22k para algum inteiro k), Vu = Yu = 
Vu. Como agora permitimos que u seja uma potência ímpar de 2, temos de redefinir nossas prestimosas funções da 


Seção 20.2: 
alto(x) = ao |, 
baixo(x) = x mod Yu, 
índice(x,y) = 14 u+y. 


vEB(Nu) 


Vu árvores vEB(N'u ) 


Figura 20.5 As informações em uma árvore vEB(u) quando u >2. A estrutura contém o tamanho de universo u, elementos min e max, 


) É) Ú Ii 
um ponteiro summary para uma árvore Viu e umarranjo cluster 0.. Vu —1 de Viu ponteiros para árvores vEB ( Van, 


20.3.1 ÁRVORES DE VAN EMDE BOAS 


A árvore de van Emde Boas, ou árvore vEB, modifica a estrutura proto-vEB. Denotamos por vEB(u) uma 
árvore vEB com tamanho de universo de u e, a menos que u seja igual ao tamanho-base 2, o atributo summary aponta 


para uma árvore (A) e o arranjo cluster 0. Yu —1 aponta para Vu árvores vEB ( Vi). Como a Figura 20.5 ilustra, 
uma árvore vEB contém dois atributos não encontrados em uma estrutura proto-vEB: 

* min armazena o elemento mínimo na árvore vEB, e 

* max armazena o elemento máximo na árvore vEB. 


: E O ra , . 4 
Além do mais, o elemento armazenado em min não aparece em nenhuma das árvores recursivas vEB ( Vu ) para a 
. p A, a ; E 
qualo arranjo cluster aponta. Portanto, os elementos armazenados em uma árvore vEB ( Vu) são V.min mais todos os 


; ; b ; | 
elementos armazenados recursivamente nas árvores vEB ( Ni) para as quais o V.cluster 0.. Vu 1 aponta. Observe 
que, quando uma árvore vEB contém dois ou mais elementos, tratamos min e max de modos diferentes: o elemento 


armazenado em min não aparece em nenhum dos grupos, mas, exceto quando a árvore contém só um elemento (e 

nesse caso o máximo e o mínimo coincidem), o elemento armazenado em max aparece. 

Visto que o tamanho-base é 2, uma árvore vEB(2) não precisa do arranjo A que a estrutura proto-vEB() 
correspondente tem. Em vez disso, podemos determinar seus elementos por seus atributos min e max. Em uma árvore 
vEB sem nenhum elemento, independentemente do tamanho do universo u, min e max são NIL. 

A Figura 20.6 mostra uma árvore vEB(16) que mantém o conjunto (2, 3, 4, 5, 7, 14, 15?. Como o menor 
elemento é 2, V.min é iguala 2 e, apesar de o que high(2) = 0, o elemento 2 não aparece na árvore vEB(4) para a qual 
V.cluster(0] aponta: observe que V.cluster[0]: min é igual a 3 e, portanto, 2 não está nessa árvore vEB. De modo 
semelhante, visto que V.cluster[0] min é iguala 3, e 2 e 3 são os únicos elementos em V.cluster[0], os grupos vEB() 
dentro de V.cluster[0] são vazios. 

Os atributos min e max serão fundamentais para reduzir o número de chamadas recursivas dentro de operações 
em árvores vEB. Esses atributos nos ajudarão de quatro modos: 

1. As operações Minimum e Maximum hem mesmo precisam executar recursão porque podem apenas retornar os 
valores de min ou max. 

2. A operação Successor pode evitar fazer uma chamada recursiva para determinar se o sucessor de um valor x se 
encontra dentro de high(x). Isso porque o sucessor de x se encontra dentro de seu grupo se e somente se x é 
estritamente menor que o atributo max de seu grupo. Um argumento simétrico é válido para Prenecessor e min. 

3. Podemos dizer se uma árvore vEB não tem nenhum elemento, exatamente um elemento ou no mínimo dois 
elementos em tempo constante por seus valores min e max. Essa capacidade nos ajudará nas operações Inserr € 
Deere. Se min e max são Nu, então a árvore vEB não tem nenhum elemento. Se min e max são não Nu, mas um 
é igual ao outro, então a árvore vEB tem exatamente um elemento. Caso contrário, min e max são não Nm, mas 
não são iguais, e a árvore vEB tem dois ou mais elementos. 

4. Se sabemos que uma árvore vEB é vazia, podemos inserir um elemento atualizando somente seus atributos min e 
max. Por consequência, podemos inserir em uma árvore vEB vazia em tempo constante. De modo semelhante, se 
sabemos que uma árvore vEB tem somente um elemento, podemos eliminar esse elemento em tempo constante 
atualizando somente min e max. Essas propriedades nos permitirão abreviar a cadeia de chamadas recursivas. 
Ainda que o tamanho de universo u seja uma potência ímpar de 2, notamos que a diferença entre os tamanhos da 

árvore vEB resumo e dos grupos não afetará os tempos de execução assintóticos das operações de árvore vEB. Os 

tempos de execução de todos os procedimentos recursivos que implementam as operações de árvore vEB serão 
caracterizados pela recorrência 


T()<TWu)+o(). (20.4) 


Essa recorrência parece semelhante à recorrência (20.2), e nós a resolveremos de maneira semelhante. Fazendo m 
= le u, podemos reescrevê-la como 


T(2m) < T(“"2) + 0(1). 
Observando que m/2 < 2m/3 para todo m > 2, temos 

T(2m) < T(r") + O(1). 
Fazendo S(m) = T(2m), reescrevemos esta última recorrência como 

S(m) < S(2m/3) + O(1) , 


cuja solução, pelo caso 2 do método mestre, é S(m) = O(lg m). (Em termos da solução assintótica, a fração 2/3 não faz 
nenhuma diferença em comparação com a fração 1/2 porque, quando aplicamos o método mestre, constatamos que 
log3/2 1 = log? 1 = 0.) Assim, temos T(u) = T(2 ) = S(m) = O (lg m) = O(lg lg u). 


Antes de usar uma árvore de van Emde Boas, temos de saber qual é o tamanho de universo u, para que possamos 
criar uma árvore de van Emde Boas do tamanho adequado que represente inicialmente um conjunto vazio. Como o 
Problema 20-1 pede que você mostre, o requisito de espaço total de uma árvore de van Emde Boas é O(u), e criar 
uma árvore vazia no tempo O(u) é uma operação óbvia. Por comparação, podemos criar uma árvore vermelho-preto 
vazia em tempo constante. Portanto, poderia não ser uma boa ideia usar uma árvore de van Emde Boas quando 
executamos somente um número pequeno de operações, visto que o tempo para criar a estrutura de dados seria maior 
que o tempo poupado nas operações individuais. Em geral, essa desvantagem não é significativa, já que, normalmente, 
usamos uma estrutura de dados simples, como um arranjo ou lista ligada, para representar um conjunto que tenha 
somente um pequeno número de elementos. 


vEB(16) ul 16] min[ 2 | max 15 | 
(ds 


vEB(4) ul min [E] max [ER | vEB(4) ul 4] min[ 3 | max 3 | vEB(4) ul 4] min O | max 3 | 
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Figura 20.6 Uma árvore vEB(16) correspondente à árvore proto-vEB da Figura 20.4. Ela armazena o conjunto (2, 3, 4,5, 7, 14, 154. Barras 
inclinadas indicam valores nr. O valor armazenado no atributo min de uma árvore vEB não aparece em nenhum de seus grupos. O 
sombreado em tom mais escuro tem a mesma finalidade que o da Figura 20.4. 


20.3.2 OPERAÇÕES EM UMA ÁRVORE DE VAN EMDE BOAS 


Agora, estamos prontos para ver como executar operações em uma árvore de van Emde Boas. Como fizemos 
para a estrutura proto-van Emde Boas, consideraremos em primeiro lugar as operações de consulta e, em seguida, 
InsertTE DeLerr. Devido à ligeira assimetria entre os elementos mínimo e máximo em uma árvore vEB — quando uma 
árvore vEB contém no mínimo dois elementos, o elemento mínimo não aparece dentro de um grupo, mas o elemento 


máximo aparece — daremos pseudocódigo para todas as cinco operações de consulta. Como ocorre nas operações 
em estruturas proto-van Emde Boas, aqui as operações que adotam os parâmetros V e x, onde V é uma árvore de van 
Emde Boas e x é um elemento, supõem que O < x < Vu. 


Encontrando os elementos mínimo e máximo 


Como armazenamos o mínimo e o máximo nos atributos min e max, duas das operações têm somente uma linha e 
demoram tempo constante: 


VEB-TRrREE -MINIMUM(V) 
1 return V.min 


vEB-TrEE -MAaxiIMUM(V) 
1 return V.max 


Determinando se um valor está no conjunto 


O procedimento vEB-Trer-Memper (V, x) tem um caso recursivo como o de Proro-Ves-MemBer, mas O caso-base é 
um pouco diferente. Verificamos também, diretamente se x é igual ao elemento mínimo ou ao elemento máximo. Visto 
que uma árvore vEB não armazena bits como uma estrutura proto-vEB faz, projetamos vEB-Tree-MempER para retornar 
Truz ou Fazse em vez de 1 ou 0. 


vEB-TrEE-MEMBER (V, x) 
1 ifx== V.min ou x == V.max 


2 return TRUE 
3 elseif V.u == 2 
4 return FALSE 


5 else return vEB-TrEE-MEMBER (V.cluster[high(x)], low(x)) 


A linha 1 verifica se x é igual ou ao elemento mínimo ou ao elemento máximo. Se for, a linha 2 retorna Truz. Caso 
contrário, a linha 3 testa para o caso-base. Visto que uma árvore vEB(2)não tem nenhum elemento exceto os que estão 
emmin e max, se for o caso-base, a linha 4 retorna Farse. A outra possibilidade — não é um caso-base e x não é igual 
a min nem a max — é tratada pela chamada recursiva na linha 5. 

A recorrência (20.4) caracteriza o tempo de execução do procedimento vEB-Trer-Mempere, portanto, esse 
procedimento leva o tempo O(lg lg u). 


Achando o sucessor e o predecessor 


Em seguida, vemos como implementar uma operação Successor. Lembre-se de que o procedimento Proro-vEB- 
Successor (V, x) podia fazer duas chamadas recursivas: uma para determinar se o sucessor de x reside no mesmo grupo 
que x e, se não residir, uma para encontrar o grupo que contém o sucessor de x. Como podemos acessar o valor 
máximo em uma árvore vEB rapidamente, podemos evitar de fazer duas chamadas recursivas, fazendo, em vez disso, 
uma chamada recursiva em um grupo ou no resumo, mas não em ambos. 


vEB-TrEE-SUCCESSOR(V, x) 


1ifVu== 

PA ifx==0e V.max == 

3 return 1 

4 else return NIL 

5 elseif V.imin zNILe x < V.min 
6 return Vimin 


7 else max-low = vEB-TrEE-MAxiMUM (V.cluster[high(x)]) 


8 if max-low = NIL e low(x) < max-low 

9 offset = vEB-TrEE-SuccEssoR(V.cluster[high(x)], low(x)) 
10 return index(high(x), offset) 
1 else succ-cluster = vEB-TREE-SUCCESSOR(V.summary, high(x)) 
12 if succ-cluster == NIL 
13 return NIL 
14 else offset = vEB-TREE-MINIMUM(V .cluster[succ-cluster]) 
15 return index(succ-cluster, offset) 


Esse procedimento tem cinco instruções retum e vários casos. Começamos com o caso-base nas linhas 2-4, que 
devolve 1 na linha 3 se estivermos tentando encontrar o sucessor de O e 1 estiver no conjunto de 2 elementos; caso 
contrário, o caso-base devolve nr na linha 4. 

Se não estivermos no caso-base, em seguida, verificamos na linha 5 se x é estritamente menor que o elemento 
mínimo. Se for, simplesmente devolvemos o elemento mínimo na linha 6. 

Se chegarmos à linha 77, sabemos que não estamos em um caso-base e que x é maior ou igual ao valor mínimo na 
árvore vEB V. A linha 77 atribui a max-low o elemento máximo no grupo de x. Se o grupo de x contém algum elemento 
maior que x, sabemos que o sucessor de x se encontra em algum lugar dentro do grupo de x. A linha 8 testa essa 
condição. Se o sucessor de x estiver dentro do grupo de x, a linha 9 determina em que lugar do grupo ele está, e a linha 
10 retorna o sucessor do mesmo modo que a linha 7 de Proro-vEB-Successor. 

Chegamos à linha 11, se x é maior ou igual ao maior elemento em seu grupo. Nesse caso, as linhas 11-15 
encontram o sucessor de x do mesmo modo que as linhas 8-12 de Proro-vEB-Successor. 

É fácil ver como a recorrência (20.4) caracteriza o tempo de execução de vEB-Tret- Successor. Dependendo do 
resultado do teste na linha 7, o procedimento chama a si mesmo recursivamente na linha 9 (em uma árvore vEB com 


ih 
tamanho de universo A) ou na linha 11 (em uma árvore vEB com tamanho de universo Vu). Em qualquer dos casos, a 


única chamada recursiva é em uma árvore vEB com tamanho de universo no máximo Vu, O restante do procedimento, 
incluindo as chamadas a vEB-TreE-Minimum € VEB-Trer-Maximum, leva o tempo O(l). Por consequência, vEB-Trer 
—Successor é executado no tempo do pior caso O(lg lg u). 

O procedimento vEB-Trer-Prepecessor é simétrico ao procedimento vEB-Trer-Successor, porém com um caso 
adicional. 


vEB-TREE-PREDECESSOR(V, x) 


1ifVu== 

2 ifx==1eVmin==0 

3 return O 

4 else return NIL 

5 elseif V.max = NL e x > V.max 

6 return V.max 

7 else min-low = vEB-TreE-MInIMUM(V cluster[high(x)]) 

8 if min-low = NIL e low(x)> min-low 

9 offset = vEB-TrEE-PREDECESSOR(V.cluster[high(x)], low(x)) 


10 return index(high(x), offset) 

1 else pred-cluster = vEB-TrEE-PREDECESSOR(V.summary, high(x)) 
12 if pred-cluster == NIL 

13 if V.min = nL ex > V.min 

14 return V.min 

15 else return NIL 

16 else offset — vEB-TreE-Maximum(V.cluster[pred-cluster]) 

17 return index(pred-cluster, offset) 


As linhas 13-14 formam o caso adicional. Esse caso ocorre quando o predecessor de x, se existir, não reside no 
grupo de x. Em vEB-Trer-Successor, tínhamos certeza de que, se o sucessor de x reside fora do grupo de x, deve 
residir em um grupo de número mais alto. Porém, se o predecessor de x é o valor mínimo na árvore vEB V, então, 
definitivamente, o predecessor não reside em nenhum grupo. A linha 13 verifica essa condição e a linha 14 devolve o 
valor mínimo como adequado. 

Esse caso extra não afeta o tempo de execução assintótico de vEB-Trer-Prenecessor quando comparado com vEB- 
TreE-Successor e, portanto, vEB-Trer-Prepecessor é executado no tempo do pior caso O(lg lg u). 


Inserindo um elemento 


Agora, examinamos como inserir um elemento em uma árvore vEB. Lembre-se de que Proro-vEB Inserr fazia duas 
chamadas recursivas: uma para inserir o elemento e uma para inserir o número do grupo do elemento no resumo. O 
procedimento vEB-Trer-Inserr fará somente uma chamada recursiva. Como podemos nos safar com apenas uma? 
Quando inserimos um elemento, o grupo no qual ele entra já tem um outro elemento ou não tem. Se o grupo já tiver um 
outro elemento, o número do grupo já está no resumo e, assim, não precisamos fazer aquela chamada recursiva. Se o 
grupo ainda não tiver nenhum outro elemento, o elemento que está sendo inserido torna-se o único elemento no grupo e 
não precisamos executar recursão para inserir um elemento em uma árvore vEB vazia: 


vEB-Empry-TREE-INSERT(V, x) 
1 Vmin=x 
2 VA = 16 


Com esse procedimento em mãos, apresentamos aqui o pseudocódigo para vEB-Trer-Inserr(V, x), que supõe que 
x ainda não é um elemento no conjunto representado pela árvore vEB V: 
vEB-TREE-INSERT.V(x) 


1 if V.min == NIL 
2: vEB-Empry-TREE-INSERT(V, x) 


3 elseifx < V.min 
4 troque x com V.min 
5 ifVu>2 
6 if vEB-TrEE-MinIiMuM(V cluster[high(x)] == nIL 
7 vEB-TrEE-INsERT(V.summary, high(x)) 
8 vEB-Empry-TrEE-INSERT(V.cluster[high(x)], low(x)) 
9 else vEB-TrEE-INSERT(V.cluster[high(x)], low(x)) 
10 if x > V.max 
1 V.max = x 


Esse procedimento funciona da seguinte maneira: a linha 1 testa se V é uma árvore vEB vazia e, se for, a linha 2 
trata esse caso fácil As linhas 3-11 sabem que V não é vazia e, portanto, algum elemento será inserido em um dos 
grupos de V. Mas esse elemento poderia não ser necessariamente o elemento x passado para vEB-Trer-Inserr. Se x < 
min, como testado na linha 3, então x precisa tornar-se o novo min. Todavia, não queremos perder o min original e, 
por isso, precisamos inseri-lo em um dos grupos de V. Nesse caso, a linha 4 permuta x por min, de modo que 
inserimos o min original em um dos grupos de V. 

Executamos as linhas 6-9 somente se V não for uma árvore vEB do caso-base. A linha 6 determina se o grupo 
para o qual x irá está atualmente vazio. Se estiver, a linha 7 insere o número do grupo de x no resumo e a linha 8 trata o 
caso fácil, que é inserir x em um grupo vazio. Se o grupo de x não estiver vazio no momento em questão, a linha 9 
insere x em seu grupo. Nesse caso, não precisamos atualizar o resumo, visto que o número do grupo de x já é um 
membro do resumo. 

Finalmente, as linhas 10-11 cuidam de atualizar max se x > max. Observe que, se V é uma árvore vEB do caso- 
base, as linhas 3-4 e 10-11 atualizam min e max adequadamente. 

Mais uma vez, é fácil ver como a recorrência (20.4) caracteriza o tempo de execução. Dependendo do resultado 


é ; E l 1 
do teste na linha 6, é executada a chamada recursiva na linha 7 (em uma vEB com tamanho de universo Vi) ou a 
chamada recursiva na linha 9 (em uma vEB com tamanho de universo Va), Em qualquer dos casos, essa única chamada 


; ; PERO 
recursiva é numa árvore vEB com tamanho de universo no máximo Vi, Como o restante de vEB-Trezr-Inserr leva o 
tempo O(1), a recorrência (20.4) se aplica e, assim, o tempo de execução é O(lg lg u). 


Eliminando um elemento 


Finalmente, examinamos como eliminar um elemento de uma árvore vEB. O procedimento vEB-Trer-Decere.V(x) 
supõe que x é, no momento considerado, um elemento no conjunto representado pela árvore vEB V. 


vEB-TrEE-DELETE(V, x) 
1 if Vmin == Vmax 
2 Vmin=nNiL 


3 Vmax=NIL 

4 elseif Viu == 2 

E 

6 Vmin=1 

7 elseVmin=0 

8 Vmax = Vin 

9 elseifx== Vmin 
10 first-cluster = vEB-TreE-MINIMUM.(V.summary) 
E x = index.first-cluster; 

vEB-TreE-MINIMUM.V cluster(first-cluster])) 

12 Vimin =x 


13 vEB-TreE-DeLETE.(V.cluster[high(x)] low(x)) 
14 if vEB-TreE-MINIMUM.(V cluster[high(x)] == IL 


15 vEB-TrEE-DELETE.V summary: high(x)) 

16 ifx == Vmax 

17 summary-max = vEB-TrEE-MAxIMUM.(V summary) 

18 if summary-max == NIL 

19 V.max = Vmin 

20 else V.max = index.summary-max; 
vEB-TreE-MaxiMUM.(V.cluster[summary-max])) 

21 elseif x == V.max 

22 V.max = index.high(x), 


vEB-TreE-MAxiIMUM.V .cluster[high(x)])) 


O procedimento vEB-Trer-DeLere funciona da maneira descrita a segurr. Se a árvore vEB V contém somente um 
elemento, eliminá-lo é tão fácil quanto inseri-lo em uma árvore vEB vazia: basta definir min e max como NIL. As linhas 
1-3 tratam desse caso. Do contrário, V tem, no mínimo, dois elementos. A linha 4 testa se V é um caso-base de árvore 
vEB e, se for, as linhas 5-8 definem min e max como o único elemento remanescente. 

As linhas 9-22 levam em conta que V tem dois ou mais elementos e que u > 4. Nesse caso, teremos de eliminar um 
elemento de um grupo. Contudo, o elemento que eliminamos de um grupo poderia não ser x porque, se x é igual a min, 
uma vez eliminado x algum outro elemento dentro de um dos grupos de V torna-se o novo min e temos de eliminar o 
outro elemento desse grupo. Se o teste na linha 9 revelar que estamos nesse caso, a linha 10 define first-cluster como 
o número do grupo que contém o elemento mais baixo exceto min, e a linha 11 define x como o valor do elemento mais 
baixo naquele grupo. Esse elemento torna-se o novo min na linha 12 e, já que definimos x como esse valor, ele é o 
elemento que eliminaremos desse grupo. 

Quando alcançamos a linha 13, sabemos que precisamos eliminar o elemento x de seu grupo, quer x fosse o valor 
originalmente passado para vEB-Trer-DeLerTe, quer x seja o elemento que está se tornando o novo mínimo. A linha 13 
elimina x desse grupo. Agora, aquele grupo poderia tornar-se vazio, o que a linha 14 testa; se ele se tornou vazio, 
precisamos remover o número de grupo de x do resumo, o que a linha 15 faz. Após atualizar o resumo, poderia ser 
necessário atualizar max. A linha 16 verifica se estamos eliminando o elemento máximo em V e, se estivermos, a linha 
17 define summary-max como o número do grupo não vazio de número mais alto. (A chamada vEB-Trer-Maximum 
(V.summary) funciona porque já chamamos vEB-Trer-DeLETE recursivamente em V.summary e, portanto, 
V.summary.max já foi atualizado conforme necessário.) Se todos os grupos de V são vazios, o único elemento restante 
em V é min; a linha 18 verifica esse caso, e a linha 19 atualiza max adequadamente. Caso contrário, a linha 20 define 
max como o elemento máximo no grupo não vazio de número mais alto. (Se é desse grupo que o elemento foi 
eliminado, novamente confiamos que a chamada recursiva na linha 13 já tenha corrigido o atributo max daquele grupo.) 

Finalmente, temos de tratar o caso no qual o grupo de x não se tornou vazio em razão da eliminação de x. Embora 
não tenhamos de atualizar o resumo nesse caso, poderíamos ter de atualizar max. A linha 21 testa esse caso e, se 
tivermos de atualizar max, a linha 22 o faz (mais uma vez confiando que a chamada recursiva tenha corrigido max no 
grupo). 

Agora mostramos que vEB-Trer-DeLere é executada no tempo O(lg lg wu) do pior caso. À primeira vista, você 
poderia imaginar que a recorrência (20.4) nem sempre se aplica porque uma única chamada de vEB-Trer-DeLerr pode 
fazer duas chamadas recursivas: uma na linha 13 e uma na linha 15. Embora o procedimento possa fazer ambas as 
chamadas recursivas, vamos pensar no que acontece quando ele o faz. Para que a chamada recursiva na linha 15 
ocorra, o teste na linha 14 deve mostrar que o grupo de x está vazio. O único modo possível de o grupo de x estar 
vazio é se x era o único elemento nesse grupo quando fizemos a chamada recursiva na linha 13. Porém, se x era o único 
elemento nesse grupo, aquela chamada recursiva levou o tempo O(1) porque só as linhas 1-3 foram executadas. Assim, 
temos duas possibilidades mutuamente exclusivas: 

* A chamada recursiva na linha 13 demorou tempo constante. 
* A chamada recursiva na linha 15 não ocorreu. 

Em qualquer caso, a recorrência (20.4) caracteriza o tempo de execução de vEB-Trer-DeLeTE €, por consequencia, 

seu tempo de execução do pior caso é O(lg lg u). 


Exercícios 
20.3-1 Modifique árvores vEB para suportar chaves duplicadas. 


20.3-2 Modifique árvores vEB para suportar chaves que tenham dados satélites associados. 


20.3-3 Escreva pseudocódigo para um procedimento que cria uma árvore de van Emde Boas vazia. 


20.3-4 


20.3-5 


20.3-6 


O que acontece se você chamar vEB-Trer-Inserr com um elemento que já está na árvore vEB? O que 
acontece se você chamar vEB-Trer-DeLere com um elemento que não está na árvore vEB? Explique por que 
os procedimentos exibem o comportamento que exibem. Mostre como modificar árvores vEB e suas 
operações de modo que possamos verificar, em tempo constante, se um elemento está presente. 


Suponha que, em vez de Yu grupos, cada um com tamanho de universo Yu , construíssemos árvores vEB que 
tivessem w1/«grupos, cada um com tamanho de universo 41-1/x, onde k > 1 é uma constante. Se tivéssemos de 
modificar as operações adequadamente, quais seriam seus tempos de execução? Para a finalidade de análise, 
considere que u,X eu, ,/*são sempre inteiros. 


Criar uma árvore vEB com tamanho de universo u requer tempo O(u) Suponha que desejamos dar conta 
explicitamente desse tempo. Qual é o menor número de operações n para o qual o tempo amortizado de cada 
operação em uma árvore vEB é O(lg lg u)? 


Problemas 


20-1 


Requisitos de espaço para árvores de van Emde Boas 


Esse problema explora os requisitos de espaço para árvores de van Emde Boas e sugere um modo de 
modificar a estrutura de dados para que esse requisito de espaço dependa do número n de elementos que 
estão realmente armazenados na árvore, em vez de depender do tamanho de universo u. Por simplicidade, 
considere que Vu seja sempre um inteiro. 


a. Explique por que a seguinte recorrência caracteriza o requisito de espaço P(u) de uma árvore de van 
Emde Boas com tamanho de universo u: 


pj luap ao 6a (20.5) 


b. Prove que a recorrência (20.5) tema solução P(u) = O(u). 


Para reduzir os requisitos de espaço, vamos definir uma árvore de van Emde Boas de espaço reduzido, ou 
árvore vEB-ER, como uma árvore vEB V, porém com as seguintes mudanças: 


* Emvezde o atributo V.cluster ser armazenado como um simples arranjo de ponteiros para árvores vEB 
com tamanho de universo Vu, ele é uma tabela de espalhamento (veja o Capítulo 11) armazenada como 
uma tabela dinâmica (veja a Seção 17.4). Assim como a versão de arranjo de V.cluster, a tabela de 
espalhamento armazena ponteiros para árvores vEB-ER com tamanho de universo Vu. Para encontrar o 
i--ésimo grupo, consultamos a chave i na tabela de espalhamento, de modo a podermos encontrar o i- 
ésimo grupo com uma única busca na tabela de espalhamento. 


* Atabela de espalhamento armazena somente ponteiros para grupos não vazios. Uma busca na tabela de 
espalhamento por um grupo vazio retorna NIL, o que indica que o grupo é vazio. 


* O atributo Vsummary é Nu se todos os grupos são vazios. Caso contrário, V.summary aponta para 
uma árvore vEB-ER com tamanho de universo Nu. 


Como a tabela de espalhamento é implementada com uma tabela dinâmica, o espaço que ela requer é 
proporcional ao número de grupos não vazios. 


Quando precisamos inserir um elemento em uma árvore vEB-ER vazia, criamos a árvore vEB-RS chamando 
o seguinte procedimento, onde o parâmetro u é o tamanho de universo da árvore vEB-RS: 


CREATE-NEW-ER-vEB-TREE(U) 
1 alocar uma nova árvore vEB V 


2Vu=u 
3 V.min = NIL 
4 V.max = NIL 


5 V.summary = NIL 
6 criar V.cluster como uma tabela de espalhamento dinâmica vazia 
7 return V 


20-2 


c. Modifique o procedimento vEB-Trer-Inserr para produzir pseudocódigo para o procedimento ER-vEB- 
Trer-Inserr.(V, x) que insere x na árvore vEB-ER V, chamando Cresre-NEw-ER-VEB-Trer 
adequadamente. 


d. Modifique o procedimento vEB-Trer-Successor para produzir pseudocódigo para o procedimento ER- 
vEB-Trer-Successor V(x), que devolve o sucessor de x na árvore vEB-ER V ou Nu se x não tiver nenhum 
sucessor em V. 


e. Prove que, sob a premissa de hashing uniforme simples, seus procedimentos RS-vEB-Trer-Inserr e ER- 
vEB-Trer-Successor são executados no tempo amortizado esperado O(lg Ig u). 


f' Supondo que elementos de uma árvore vEB nunca são eliminados, prove que o requisito de espaço para 
a estrutura árvore vEB-ER é O(n), onde n é o número de elementos realmente armazenados na árvore 
vEB-ER. 


g. Árvores vEB-ER têm uma outra vantagem em reação a árvores vEB: criá-las exige menos tempo. Quanto 
tempo demora para criar uma árvore vEB-ER vazia? 


Y-fast tries 


22 64 


Esse problema investiga as “y-fast tries” (“tries y rápidas”, “árvores digitais y rápidas”) de D. Willard que, 
como as árvores de van Emde Boas, executam cada uma das operações Memeer, Minimum, MAxIMUM, 
PreDECESSOR € Successor em elementos extraídos de um universo com tamanho u no tempo do pior caso O(lg lg 
u). As operações Inserr e Deere demoram o tempo amortizado Olg lg 4). Do mesmo modo que as árvores de 
van Emde Boas de espaço reduzido (veja o Problema 20-1), as y-fast tries usam somente o espaço O(n) para 
armazenar n elementos. O projeto de y-fast tries depende de hashmng perfeito (veja a Seção 11.5). 


Como um estrutura preliminar, suponha que criamos uma tabela de hash perfeito que contenha não somente 
todo elemento no conjunto dinâmico, mas também todo prefixo da representação binária de todo elemento no 
conjunto. Por exemplo, se u = 16, de modo que lg u = 4, ex = 13 está no conjunto, então, como a 
representação binária de 13 é 1101, a tabela de hash perfeito contém as cadeias 1, 11, 110 e 1101. Além da 
tabela de espalhamento, criamos uma lista duplamente ligada dos elementos presentes atualmente no conjunto, 
em ordem crescente. 


a. Quanto espaço essa estrutura requer? 


b. Mostre como executar as operações Minimum e Maximum no tempo O(1); as operações Memer, 
PreDECESSOR E Successor no tempo O(lg le 4) e as operações Inserr e DeLere no tempo O(lg u). 


Para reduzir o requisito de espaço para O(n), fazemos as seguintes mudanças na estrutura de dados: 


Agrupamos os n elementos em nn/lg u grupos de tamanho lg u. (Suponha, por enquanto, que lg u seja um 
divisor de n.) O primeiro grupo consiste nos lg y menores elementos no conjunto, o segundo grupo 
consiste nos lg u menores elementos seguintes, e assim por diante. 


* Designamos um valor “representante” para cada grupo. O representante do i-ésimo grupo é no mínimo 
tão grande quanto o maior elemento no i-ésimo grupo, e é menor que todo elemento do (i + 1)-ésimo 
grupo. (O representante do último grupo pode ser o máximo elemento possível u - 1.) Observe que um 
representante pode ser um valor que não está atualmente no conjunto. 


* —Armazenamos os lg uy elementos de cada grupo em uma árvore de busca binária balanceada, tal como 
uma árvore vermelho-preto. Cada representante aponta para a árvore de busca binária balanceada para 
seu grupo, e cada árvore de busca binária balanceada aponta para seu representante de grupo. 


* A tabela de espalhamento perfeito armazena somente os representantes, que são também armazenados 
em uma lista duplamente ligada em ordem crescente. 


Denominamos essa estrutura y-fast trie. 
c. Mostre que uma y-fast trie requer somente espaço O(n) para armazenar n elementos. 
d. Mostre como executar as operações Minimum € Maximum no tempo Ollg lg 4) com uma y-fast trie. 
e. Mostre como executar a operação Memeer no tempo O(lg lg u). 
Mostre como executar as operações Prepecessor € Successor no tempo O(lg lg u). 


Explique por que as operações Insert e DeLerE demoram o tempo (lg lg u). 


= no 


Mostre como relaxar o requisito de que cada grupo em uma y-fast trie deve ter exatamente lg u 
elementos para permitir que Insert € Derere sejam executadas no tempo amortizado O(lg lg u) sem afetar 
os tempos de execução assintóticos das outras operações. 


NorTas DO CAPÍTULO 


A estrutura de dados neste capítulo deve seu nome a P. van Emde Boas, que descreveu uma primeira forma da 
ideia em 1975 [339]. Artigos publicados mais tarde por van Emde Boas, Kaas e Zijlstra [341] refinaram a ideia e a 
exposição. Subsequentemente, Mehlhorn e Náher [252] ampliaram as ideias para aplicá-las a tamanhos de universo que 
são primos. O livro de Mehlhorn [249] contém um tratamento ligeiramente diferente de árvores de van Emde Boas que 
o utilizado neste capítulo. 

Usando as ideias que fundamentam as árvores de van Emde Boas, Dementiev et al. [83] desenvolveram uma 
árvore de busca não recursiva de três níveis que rodou mais rapidamente do que as árvores de van Emde Boas em seus 
próprios experimentos. 

Wang e Lin [347] projetaram uma versão das árvores de van Emde Boas com pipeline em hardware que consegue 
tempo amortizado constante por operação e usa O(lg lg u) estágios no pipeline. 

Um limite inferior determinado por Pa” trasçu e Thorup [273, 274] para encontrar o predecessor mostra que 
árvores de van Emde Boas são ótimas para essa operação, mesmo que a aleatorização seja permitida. 


1 O Capítulo 13 não discute explicitamente como implementar extract-min e decrease-key, mas podemos construir facilmente essas 
operações para qualquer estrutura de dados que suporte minimum, delete € insert. 


2 Em todo este capítulo consideramos que Minimum e Maximum retornam nil se o conjunto dinâmico estiver vazio e que Successor € 
Predecessor retornam nil se o elemento que lhes é dado não tiver nenhum sucessor ou predecessor, respectivamente. 


ESTRUTURAS DE DADOS PARA 
CONJUNTOS DISJUNTOS 


Algumas aplicações envolvem agrupar n elementos distintos em uma coleção de conjuntos disjuntos. Muitas vezes, 
essas aplicações precisam executar duas operações em particular: encontrar o único conjunto que contém um dado 
elemento e unir dois conjuntos. Este capítulo explora métodos para manter uma estrutura de dados que suporta essas 
operações. 

A Seção 21.1 descreve as operações suportadas por uma estrutura de dados de conjuntos disjuntos e apresenta 
uma aplicação simples. Na Seção 21.2, examinaremos uma implementação de lista ligada simples para conjuntos 
disjuntos. A Seção 21.3. apresenta uma representação mais eficiente que utiliza árvores enraizadas. O tempo de 
execução com a utilização da representação de árvore é teoricamente superlinear, porém, para todas as finalidades 
práticas, é linear. A Seção 21.4 define e discute uma função de crescimento muito rápido e sua inversa de crescimento 
muito lento, que aparece no tempo de execução de operações na implementação baseada em árvore e, em seguida, por 
uma análise amortizada complexa, prova um limite superior para o tempo de execução que mal é superlinear. 


21.1 OPERAÇÕES EM CONJUNTOS DISJUNTOS 


Uma estrutura de dados de conjuntos disjuntos mantém uma coleção S = (S,, S, ..., S;y de conjuntos 
dinâmicos disjuntos. Identificamos cada conjunto por um representante, que é algum membro do conjunto. Em 
algumas aplicações, não importa qual membro seja usado como representante; a única coisa que importa é que, se 
solicitarmos o representante de um conjunto dinâmico duas vezes sem modificar o conjunto entre as solicitações, 
obteremos a mesma resposta ambas as vezes. Outras aplicações podem exigir uma regra previamente especificada para 
escolher o representante, como escolher o menor elemento no conjunto (considerando, é claro, que os elementos 
podem ser ordenados). 

Como nas outras implementações de conjuntos dinâmicos que estudamos, representamos cada elemento de um 
conjunto por um objeto. Denotando a representação de um objeto por x, desejamos suportar as seguintes operações: 


Make-Ser(x) cria um novo conjunto cujo único membro (e, portanto, o representante) é x. Visto que os conjuntos 
são disjuntos, exigimos que x ainda não esteja em algum outro conjunto. 


Union(x, 7) une os conjuntos dinâmicos que contêm x e y, digamos S, e S,, em um novo conjunto que é a união 
desses dois conjuntos. Supomos que os dois conjuntos são disjuntos antes da operação. O representante do 
conjunto resultante é qualquer membro de S, U S,, embora muitas implementações de Union escolham 
especificamente o representante de S, ou o de S, como o novo representante. Visto que exigimos que os 
conjuntos na coleção sejam disjuntos, conceitualmente “destruímos” os conjuntos S, e S,, removendo-os da 
coleção S. Na prática, frequentemente absorvemos os elementos de um dos conjuntos no outro conjunto. 


Frnp-Ser(x) retorna um ponteiro para o representante do (único) conjunto que contém x. 


Ao longo deste capítulo, analisaremos os tempos de execução de estruturas de dados de conjuntos disjuntos em 
termos de dois parâmetros: n, o número de operações Make-Ser, € m, O número total de operações Maxe-Ser, UNION € 
Fnp-Ser. Visto que os conjuntos são disjuntos, cada operação Union reduz o número de conjuntos de uma unidade. 
Portanto, após n - 1 operações Union, resta apenas um conjunto. Assim, o número de operações Union é no máximo n - 
1. Observe também que, como as operações Maxe-Ser estão incluídas no número total de operações m, temos m > n. 
Supomos que as n operações Maxe-Ser são as primeiras n operações executadas. 


Uma aplicação de estruturas de dados de conjuntos disjuntos 


Uma das muitas aplicações de estruturas de dados de conjuntos disjuntos surge na determinação das componentes 
conexas de um grafo não dirigido (veja a Seção B.4). Por exemplo, a Figura 21.1(a) mostra um grafo com quatro 
componentes conexas. 

O procedimento ConnecreD-ComponEnts que apresentamos a seguir, utiliza as operações de conjuntos disjuntos para 
calcular as componentes conexas de um grafo. Tão logo Connecren- Components tenha pré-processado o grafo, o 
procedimento Same-Componenr responde, por consulta, se dois vértices estão na mesma componente conexa.! (No 
pseudocódigo, denotamos o conjunto de vértices de um gráfico G por G.V e o conjunto de vértices por G.E.) 


CoONNECTED-COMPONENTS(G) 
1 for cada vértice v e G.V 

B Maxke-SET(U) 

3 for cada aresta(u, v) E G.E 

4 if FinD-SET(U) = FIND-SET(U) 
5 Union(u, v) 


O o O RR O q O) (1) 


(a) 

Aresta processada Coleção de conjuntos disjuntos 

conjuntos iniciais] (a) bj to tdi te O tg dy db Ui 
(bd) tas tb; tc te O ig to db tj 
(eg) tas tb; tc teg) tj di) U 
(a,c) tac) tb,ds tegs df ty do U 
(Ai) tac) tb,d) tegr 45 tais Us 
(a,b) ta,b,c,d) tegr df tis U) 
(e, ) ta,b,c,ds te, fg) this U) 
(b,c) ta,b,c,d) te, gs tis U) 


(b) 


Figura 21.1 (a) Um grafo com quatro componentes conexas: (a, b,c,d ), tle,fg!, th,i ye 47). (b) A coleção de conjuntos disjuntos 
após o processamento de cada aresta. 


SAME-COMPONENT(U, U) 


1 if FinD-SeT(u) == FIND-SET(v) 
2 return TRUE 
3 else return FALSE 


O procedimento Connecren-Components inicialmente coloca cada vértice v em seu próprio conjunto. Em seguida, 
para cada aresta (u, v), ele une os conjuntos que contêm u e v. Pelo Exercício 21.1-2, após o processamento de todas 
as arestas, dois vértices estão na mesma componente conexa se e somente se os objetos correspondentes estão no 
mesmo conjunto. Assim, ConnecreD-Components calcula conjuntos de um modo tal que o procedimento Same-ComponEnT 
pode determinar se dois vértices estão na mesma componente conexa. A Figura 21.1(b) ilustra como os conjuntos 
disjuntos são calculados por ConnecreD-ComponEnTS. 

Em uma implementação real desse algoritmo de componentes conexas, as representações do grafo e da estrutura 
de dados de conjuntos disjuntos precisariam referenciar uma à outra. Isto é, um objeto que representa um vértice 
conteria um ponteiro para o objeto conjunto disjunto correspondente e vice-versa. Esses detalhes de programação 
dependem da linguagem de implementação, e não os examinaremos mais aqui. 


Exercícios 


21.1-1 Suponha que Connecren-Components seja executado em um grafo não dirigido G = (V, E), onde V = fa, b, c, 
def,ig,h,i,j,kk e as arestas de E sejam processadas na ordem (d, à), (f; k), (g, D, (b, 2), (a, h), (i, )), 
(d, k), (b, 1), (d, 1), (2,7), (a, e). Faça uma lista de vértices em cada componente conexa após cada iteração 
das linhas 3-5. 


21.1-2 Mostre que, depois de todas as arestas serem processadas por Connecren-Components, dois vértices estão na 
mesma componente conexa se e somente se estão no mesmo conjunto. 


21.1-3 Durante a execução de Connecren-Components em um grafo não dirigido G = (V, E) com k componentes 
conexas, quantas vezes Finp-Ser é chamado? Quantas vezes Union é chamado? Expresse suas respostas em 
termos de |V, |E] e X. 


21.2 REPRESENTAÇÃO DE CONJUNTOS DISJUNTOS POR LISTAS LIGADAS 


A Figura 21.2(a) mostra um modo simples de implementar uma estrutura de dados de conjuntos disjuntos: cada 
conjunto é representado por sua própria lista ligada. O objeto para cada conjunto tem atributos head (início), que 
aponta para o primeiro objeto na lista, e tail (fim), que aponta para o último objeto. Cada objeto na lista ligada contém 
um membro de conjunto, um ponteiro para o próximo objeto na lista e um ponteiro de volta para o objeto conjunto. 
Dentro de cada lista ligada, os objetos podem aparecer em qualquer ordem. O representante é o membro do conjunto 
no primeiro objeto na lista. 

Com essa representação de lista ligada, Makr-Ser € Frnp-Ser são fáceis e exigem o tempo O(1). Para executar Make- 
Ser(x), criamos uma nova lista ligada cujo único objeto é x. Para Frinp- -Ser(x), simplesmente seguimos o ponteiro de x 
de volta ao seu objeto conjunto e depois retornamos o membro no objeto para o qual head aponta. Por exemplo, na 
Figura 21.2(a), a chamada Finp-Ser(g) retornaria f. 


Uma implementação simples de união 


A implementação mais simples da operação Union usando a representação de conjunto de lista ligada demora um 
tempo significativamente maior que Maxe-Ser ou Finp-Ser. Como mostra a Figura 21.2(b), executamos Union(x, )) 
anexando a lista de y ao final da lista de x. Usamos o ponteiro tail para a lista de x para encontrar rapidamente onde 
anexar a lista de y. Como todos os membros da lista de y juntam-se à lista de x, podemos destruir o objeto conjunto 
para a lista de 7. 


head | >» —1 + > 7 A head 
Ã 2 


Figura 21.2 (a) Representações de dois conjuntos por listas ligadas. O conjunto S, contémos membros d, fe g, comrepresentante f e o 
conjunto S, contémos membros b,c, e e A, comrepresentante c. Cada objeto na lista contém um membro de conjunto, um ponteiro para 
o próximo objeto na lista e um ponteiro de volta ao objeto conjunto. Cada objeto conjunto tem ponteiros head (início) e tail (final ) para 
o primeiro e o último objeto, respectivamente. (b) Resultado de Unron(g, e), que anexa a lista ligada que contém e a lista ligada que 
contémg. O representante do conjunto resultante é f O objeto conjunto para a lista de e, S,, é destruído. 


Infelizmente, temos de atualizar o ponteiro para o objeto conjunto para cada objeto que estava originalmente na 
lista de y, o que demora tempo linear em relação ao comprimento da lista de y. Na Figura 21.2, por exemplo, a 
operação Union( g, e) provoca a atualização dos ponteiros nos objetos para b, c, e e A. 

De fato, podemos construir facilmente uma sequência de m operações com n objetos que exige o tempo Q(n,). 
Suponha que tenhamos objetos x,, x,, ..., x,. Executamos a sequência de n operações Makt-Ser seguida por n - 1 
operações Union mostradas na Figura 21.3, de modo que m = 2n - 1. Gastamos o tempo Q(n) executando as n 
operações Maxe-Ser. Como a i-ésima operação Union atualiza i objetos, o número total de objetos atualizados por todas 
as n - 1 operações Union é 


sy = O(n”). 
i=1 


O número total de operações é 2n - 1 e, portanto, cada operação exige em média o tempo Q(n). Isto é, o tempo 
amortizado de uma operação é Q(n). 


Uma heurística de união ponderada 


No pior caso, tal implementação do procedimento Union exige um tempo médio Q(n) por chamada porque é 
possível que estejamos anexando uma lista mais longa a uma lista mais curta; temos de atualizar o ponteiro para o objeto 
conjunto para cada membro da lista mais longa. 


| 


Operação Número de objetos atualizados 
MaAxkE-SET(X,) 1 
MAxkE-SET(X,) 1 


MAkE-SET(X) 
UnIoN(x,, x,) 


UNION(x,, X,) 


É Ny id já 


UnIoN(x, x.) 


UnIoN(x x.) n—1 


Figura 21.3 Uma sequência de 2n - | operações emn objetos que demora o tempo Q(n, ) ou o tempo Q(n) por operação, em média, 
usando a representação de conjuntos por listas ligadas e a implementação simples de Union. 


Em vez disso, suponha que cada lista também inclua o comprimento da lista (que podemos manter facilmente) e que 
sempre anexamos a lista mais curta à mais longa, rompendo ligações arbitrariamente. Com essa heurística de união 
ponderada simples, uma única operação Unron ainda pode demorar o tempo (n) se ambos os conjuntos têm (n) 
membros. Porém, como mostra o teorema a seguir, uma sequência de m operações Maxe-Ser, UNION € Finp-Ser, n das 
quais são operações Makr-Ser, demora o tempo O(m + n lg n). 


Teorema 21.1 


Usando a representação de lista ligada de conjuntos disjuntos e a heurística de união ponderada, uma sequência de m 
operações Make-Ser, Union € Finp-Ser, n das quais são operações Maxe-Ser, demora o tempo O(m + n lg n). 


Prova Como cada operação Union une dois conjuntos disjuntos, executamos no máximo n - 1 operações Union no 
total. Agora, limitamos o tempo total gasto por essas operações Union. Começamos determinando, para cada objeto, 
um limite superior para o número de vezes que o ponteiro do objeto de volta ao seu objeto conjunto é atualizado. 
Considere um determinado objeto x. Sabemos que cada vez que o ponteiro de x foi atualizado, x deve ter começado 
no conjunto menor. Portanto, na primeira vez que o ponteiro de x foi atualizado, o conjunto resultante devia conter no 
mínimo dois membros. De modo semelhante, na próxima vez que o ponteiro de x foi atualizado, o conjunto resultante 
devia ter no mínimo quatro membros. Continuando, observamos que, para qualquer k < n, depois que o ponteiro de x 
foi atualizado lg k vezes, o conjunto resultante deve ter contido no mínimo k membros. Visto que o conjunto maior tem 
no máximo n membros, o ponteiro de cada objeto é atualizado no máximo lg n vezes em todas as operações Union. 
Assim, o tempo total gasto na atualização de ponteiros de objeto em todas as operações Union é O(n lg n). Também 


devemos dar conta da atualização dos ponteiros tail e dos comprimentos de listas, que demoram apenas o tempo Q(1) 
por operação Union. Assim, o tempo total gasto em todas as operações Union é O(n lg n). 

O tempo para a sequência inteira de m operações decorre facilmente. Cada operação Makr-Ser e Frnp-Ser demora o 
tempo O(1), e existem O(m) dessas operações. Portanto, o tempo total para a sequência inteira é O(m + n lg n). 


Exercícios 


21.2-1 


21.2-2 
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21.2-3 
21.2-4 


21.2-5 


21.2-6 


Escreva pseudocódigo para Make-Ser, Finp-Ser € Union usando a representação de lista ligada e a heurística de 
união ponderada. Não esqueça de especificar os atributos que você considera para objetos conjunto e 
objetos lista. 


Mostre a estrutura de dados resultante e as respostas retornadas pelas operações Finp-Serno programa a 
seguir. Use a representação de lista ligada com a heurística de união ponderada. 


fori=1to 16 
MaxkE-SET(X,) 
fori=1 to 15by2 
UnIoN(x,,X,.) 
fori=1 to 13by4 
Union(xi , x, 
UnION(x,, x.) 
UnIoON(x,,X,, 
UnIon(x,, x, 
FIND-SET(X,) 
FiND-SET(X,) 
Suponha que, se os conjuntos que contêm x, e x; tiverem o mesmo tamanho, a operação Union(x;, x;) anexa a 
lista de x, à lista de x. 
Adapte a prova agregada do Teorema 21.1 para obter limites de tempo amortizados O(1) para Make-Ser e 


Finp-Ser, € O(lg n) para Union, utilizando a representação de lista ligada e a heurística de união ponderada. 


Dê um limite assmntótico restrito para o tempo de execução da sequência de operações na Figura 21.3, 
considerando a representação de lista ligada e a heurística de união ponderada. 


O professor Gompers suspeita de que poderia ser possível manter apenas um ponteiro em cada objeto 
conjunto, em vez de dois (head e tail), e ao mesmo tempo manter em dois o número de ponteiros em cada 
elemento de lista. Mostre que a suspeita do professor é bem fundamentada descrevendo como representar 
cada conjunto por uma lista ligada de modo que cada operação tenha o mesmo tempo de execução que as 
operações descritas nesta seção. Descreva também como as operações funcionam. Seu esquema deve levar 
em consideração a heurística da união ponderada, com o mesmo efeito descrito nesta seção. (Sugestão: Use 
tail de uma lista ligada como seu representante de conjunto.) 


Sugira uma mudança simples no procedimento Union para a representação de lista ligada que elimmne a 
necessidade de manter o ponteiro tail para o último objeto em cada lista. Independentemente de a heurística 


de união ponderada ser ou não utilizada, a alteração não deve mudar o tempo de execução assintótico do 
procedimento Union. (Sugestão: Em vez de anexar uma lista à outra, entrelace uma à outra.) 


21.3 FiLoRESTAS DE CONJUNTOS DISJUNTOS 


Em uma implementação mais rápida de conjuntos disjuntos, representamos conjuntos por árvores enraizadas, 
sendo que cada nó contém um membro e cada árvore representa um conjunto. Em uma floresta de conjuntos 
disjuntos, ilustrada na Figura 21.4(a), cada membro aponta apenas para seu pai. A raiz de cada árvore contém o 
representante e é seu próprio pai Como veremos, embora os algoritmos diretos que utilizam essa representação não 
sejam mais rápidos que aqueles que usam a representação de lista ligada, com a introdução de duas heurísticas — 
“união pelo posto” e “compressão de caminho” — podemos obter uma estrutura de dados de conjuntos disjuntos 
assintoticamente ótima. 
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Figura 21.4 Uma floresta de conjuntos disjuntos. (a) Duas árvores que representamos dois conjuntos da Figura 21.2. A árvore à 
esquerda representa o conjunto (b, c,e, hy, comc como representante, e a árvore à direita representa o conjunto (d, f g!, comfcomo 
representante. (b) Resultado de UNION(e, g). 


Executamos as três operações de conjuntos disjuntos como descrevemos a seguir. Uma operação Maxe-Ser 
simplesmente cria uma árvore com apenas um nó. Executamos uma operação Finp-Ser seguindo ponteiros de pais até 
encontrarmos a raiz da árvore. Os nós visitados nesse caminho simples em direção à raiz constituem o caminho de 
localização. Uma operação Union, mostrada na Figura 21.4(b), faz a raiz de uma árvore apontar para a raiz da outra. 


Heurísticas para melhorar o tempo de execução 


Até agora, não melhoramos a implementação de listas ligadas. Uma sequência de n - 1 operações Union pode criar 
uma árvore que é apenas uma cadeia linear de n nós. Contudo, usando duas heurísticas, podemos conseguir um tempo 
de execução quase linear em relação ao número total de operações m. 

A primeira heurística, união pelo posto, é semelhante à heurística de união ponderada que usamos com a 
representação de listas ligadas. A abordagem óbvia seria fazer a raiz da árvore que tem um número menor de nós 
apontar para a raiz da árvore que tem mais nós. Em vez de controlar explicitamente o tamanho da subárvore com raiz 
em cada nó, usaremos uma abordagem que facilita a análise. Para cada nó, mantemos um posto (rank) que é um limite 
superior para a altura do nó. Na união pelo posto, fazemos a raiz que ocupa o menor posto apontar para a raiz que 
ocupa o maior posto durante uma operação Union. 


A segunda heurística, compressão de caminho, também é bastante simples e muito eficiente. Como mostra a 
Figura 21.5, nós a usamos durante operações Finp-Serpara fazer cada nó no caminho de localização apontar 
diretamente para a raiz. A compressão de caminho não altera nenhum posto. 


Pseudocódigo para florestas de conjuntos disjuntos 


Para implementar uma floresta de conjuntos disjuntos com a heurística de união pelo posto, temos de controlar os 
postos. Com cada nó x, mantemos o valor x.rank, um inteiro, que é um limite superior para a altura de x (o número de 
arestas no caminho mais longo entre uma folha descendente e x). Quando Make-Ser cria um conjunto unitário, o posto 
inicial do nó único na árvore correspondente é 0. As operações Finp-Ser não alteram os postos. A operação Union tem 
dois casos, dependendo de as raízes das árvores terem postos iguais ou não. Se as raízes têm postos desiguais, 
transformamos a raiz de posto mais alto no pai da raiz de posto mais baixo, mas os postos em si permanecem 
inalterados. Se, em vez disso, as raízes têm postos iguais, escolhemos arbitrariamente uma das raízes como o pai e 
incrementamos seu posto. 
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Figura 21.5 Compressão de caminho durante a operação Finp-Ser. Setas e autolaços nas raízes foram omitidos. (a) Uma árvore que 
representa um conjunto antes da execução de Frnp-Ser(a). Triângulos representam subárvores cujas raízes são os nós mostrados. Cada 
nó temum ponteiro para seu paí. (b) O mesmo conjunto após a execução de Finp-Ser(a). Agora, cada nó no caminho de localização 
aponta diretamente para a raiz. 


Vamos representar esse método em pseudocódigo. Designamos o pai do nó x por x.p. O procedimento Lx, uma 
sub-rotina chamada por Union, adota ponteiros para duas raízes como entradas. 


MaxkE-SET(x) 
1 Xp=X 
2 x.rank = 0 


UnIoN(x,y) 
1 Linx(FiND-SET(x), FIND-SET(y)) 


Linx(x, 1) 

1 if x.rank > y.rank 

2 Vp= 

3 else p[x] = y 

4 if x.rank = y.rank 

b v.rank = y.rank+ 1 


O procedimento Finp-Ser com compressão de caminho é bastante simples. 


FIND-SET(X) 


1 ifx=x.p 

Z x.p = FIND-SET(X.p) 
3 return x.p 

Finp-Ser(x) 


O procedimento Finp-Ser é um método de duas passagens: quando executa recursão, faz uma passagem para 
cima no caminho de localização para encontrar a raiz; à medida que a recursão se desenvolve, faz uma segunda 
passagem de volta para baixo no caminho de localização para atualizar cada nó de modo que cada um aponte 
diretamente para a raiz. Cada chamada de Finp-Ser(x) retorna p[x] na linha 3. Se x é a raiz, Finp-Ser salta a linha 2 e, em 
vez de executá-la, retorna x.p, que é x. Esse é o caso em que a recursão chega ao nível mais baixo e recomeçaria 
novamente. Caso contrário, a linha 2 é executada, e a chamada recursiva com parâmetro p[x| retorna um ponteiro para 
a raiz. À linha 2 atualiza o nó x para apontar diretamente para a raiz, e a linha 3 retorna esse ponteiro. 


Efeito das heurísticas sobre o tempo de execução 


Separadamente, união pelo posto ou compressão de caminho melhora o tempo de execução das operações em 
florestas de conjuntos disjuntos, e a melhora é ainda maior quando usamos as duas heurísticas em conjunto. Sozinha, a 
união pelo posto produz um tempo de execução de O(m lg n) (veja o Exercício 21.4-4), e esse limite é justo (veja o 
Exercício 21.3-3). Embora não o demonstremos aqui, para uma sequência de n operações Maxe-Ser(e, 
consequentemente, no máximo n - 1 operações Union) e foperações Finp-Ser, a heurística de compressão de caminho, 
se sozinha, dá um tempo de execução do pior caso iguala Q(n +f- (1 +log2+4% n)). 

Quando usamos a união pelo posto e a compressão de caminho, o tempo de execução do pior caso é O(m o(n)), 
onde a(n) é uma função de crescimento muito lento que definiremos na Seção 21.4. Em qualquer aplicação concebível 
de uma estrutura de dados de conjuntos disjuntos, a(n) < 4; assim, podemos considerar o tempo de execução como 
linear em relação a m em todas as situações práticas. Na Seção 21.4, provaremos esse limite superior. 


Exercícios 


21.3-1 


21.3-2 


21.3-3 


21.3-4 


21.3-5 


Faça novamente o Exercício 21.2-2 usando uma floresta de conjuntos disjuntos com união pelo posto e 
compressão de caminho. 


Escreva uma versão não recursiva de Finp-Ser com compressão de caminho. 


Dê uma sequência de m operações Make-Ser, Union € Finp-Ser, na qual n são operações Makr-Ser, que demore 
o tempo (m lg n) quando usamos somente união pelo posto. 


Suponha que queiramos acrescentar a operação Prinr-Ser(x), à qual é dado um nó x e que imprime todos os 
membros do conjunto de x em qualquer ordem. Mostre como podemos acrescentar apenas um único atributo 
a cada nó em uma floresta de conjuntos disjuntos de modo que Prinr-Ser(x) demore tempo linear em relação 
ao número de membros do conjunto de x e que os tempos de execução assintóticos das outras operações 
permaneçam inalterados. Suponha que podemos imprimir cada membro do conjunto no tempo O(1). 


* Mostre que qualquer sequência de m operações Maxe-Ser, FinD-Ser € Link, em que todas as operações Link 
aparecem antes de qualquer das operações Finp-Ser, demora apenas o tempo O(m) se usarmos compressão 
de caminho e união pelo posto. O que acontece na mesma situação se usarmos somente a heurística de 
compressão de caminho? 


21.4 & ANÁLISE DA UNIÃO PELO POSTO COM COMPRESSÃO DE CAMINHO 


Como observamos na Seção 21.3, o tempo de execução da heurística combinada de união pelo posto e 
compressão de caminho é O(m o(n)) para m operações de conjuntos disjuntos em n elementos. Nesta seção, 
examinaremos a função a para ver exatamente com que lentidão ela cresce. Então, provaremos esse tempo de 
execução empregando o método do potencial de análise amortizada. 


Uma função de crescimento muito rápido e sua inversa de crescimento muito lento 


Para inteiros k > 0 e j > 1, definimos a função 4,(j) como 


ano 


onde a expressão A 


o j+1 se k = 0, 
APD() sek>1, 


k— 


(+) 


» 4 () usa a notação de iteração funcional dada na Seção 3.2. Especificamen- 


te, 40 (D)=je AP ()=A, (AU ?(9) para i > 1. Faremos referência ao parâmetro k como o nível 
da função 4. 


A função A,(/) aumenta estritamente com e k. Para ver exatamente com que rapidez essa função cresce, primeiro 
obtemos expressões de forma fechada para 4 (j) e A,(j). 


Lema 21.2 


Para qualquer inteiro j > 1, temos A,(j)=2j+1. 


Prova Primeiro usamos indução em i para mostrar que A” (j) = 2(j + 1) — 1. Para o caso básico, 
temos A(j) = j = 2%j + 1) — 1. Para o passo de indução, suponha que 4(j)= 2“(j+1)-—1. 
Então, A() = A (A) = A CAGAD-D=20G+ND-D+1=2(G+)-2+1=2G+ 
1) — 1. Finalmente, observamos que A (j) = Aa perigo l=l. 


Lema 21.3 
Para qualquer inteiro j 1, temos 4()=2"!(j+1)-1. 


Prova Primeiro usamos indução em 1 para mostrar que A! (9) = 2(j + 1) — 1. Para o caso básico, 
temos A”(j) = j = 2X; + 1) — 1. Para o passo de indução, suponha que 4 (j)=2"!(G+1)-—1. 
Então, A(?(j) = A(AT (9) =A CGH) -D=22""04+0)-D)+1=20+)-2+1=2M0+ 
1) — 1. Finalmente, observamos que A (j) = AU (j)=2*!(j+1)-—1. 


Agora podemos ver com que rapidez A,(j) cresce, simplesmente examinando A,(1) para os 
níveis k = 0, 1,2,3,4. Pela definição de A (k) e lemas citados, temos A (1) =1+1=2,4(1)-2- 
1+1=3€e4A()=2*.(14+1)-=1=7, Também temos 


Ad) = AP) 
A(A (MD) 
AM) 
= 2º.8-1 
28 À 
— 2047 


A = APM 
= A(A(1) 
— AP(2047) 
> A (2047) 
= 28 .9048-1 
o 
e 2 pa 
a 16% 
e 0”, 


que é o número estimado de átomos no universo observável. (O símbolo *“” denota a relação “muito maior que”.) 
Definimos a inversa da função A,(n), para inteiros n > 0, por 


o(n) = min [k: A (1) >n). 
Em linguagem corrente, a(n) é o mais baixo nível k para o qual 4,(1) é no mínimo n. Pelos valores de 4,(1), vemos 
que 
Ô para O<n<2, 
1 paran=83, 
o(n) = 42 para 4<n<7, 
3 para 8<n< 2047, 
4 para 2048 < n< A (1). 


É apenas para valores de n tão grandes que nem mesmo o termo “astronômico” dá ideia de seu tamanho (maior do 
que 4,(1), um número enorme) que a(n) > 4. Portanto, a(n) < 4 para todas as finalidades práticas. 


Propriedades de posto 


No restante desta seção, provaremos um limite O(m a(n)) para o tempo de execução das operações de conjuntos 
disjuntos com união pelo posto e compressão de caminho. Para provar esse limite, primeiro demonstraremos algumas 
propriedades simples de posto. 


Lema 21.4 


Para todos os nós x, temos x.rank < x.p.rank, com desigualdade estrita se x £ x.p. O valor de x.rank é inicialmente O 
e aumenta com o tempo até x £ p[x]; daí em diante, x.rank não muda. O valor de x.p.rank cresce monotonicamente 
como tempo. 


Prova A prova é uma indução direta em relação ao número de operações, com a utilização das implementações de 
Maxke-SET, UNION € Finp-Ser que aparecem na Seção 21.3. Vamos deixá-la para o Exercício 21.4-1. 


Corolário 21.5 


À medida que seguimos o caminho simples de qualquer nó em direção a uma raiz, os postos dos nós aumentam 
estritamente. 


Lema 21.6 
Todo nó tem posto, no máximo, igual a n - 1. 
Prova O posto de cada nó começa em O e só aumenta com operações Lin. Como há no máximo n - 1 operações 


Union, há também no máximo n - 1 operações Linx. Como cada operação Lnx deixa todas os postos como estão ou 
aumenta de 1 o posto de algum nó, todos os postos são no máximo n - 1. 


O Lema 21.6 dá um limite fraco para postos. De fato, todo nó tem posto no máximo lg nn (veja o Exercício 21.4- 
2). Todavia, o limite mais frouxo do Lema 21.6 será suficiente para a nossa finalidade. 


Provando o limite de tempo 


Usaremos o método do potencial da análise amortizada (veja a Seção 17.3) para provar o limite de tempo O(m 
o(n)). Ao executarmos a análise amortizada, é conveniente considerar que invocamos a operação Link em vez da 
operação Union. Isto é, visto que os parâmetros do procedimento Link são ponteiros para duas raízes, agimos como se 
executássemos as operações Finp-Ser adequadas separadamente. O lema a seguir mostra que, ainda que contemos as 
operações Finp-Ser extras induzidas por chamadas Union, o tempo de execução assintótico permanece inalterado. 


Lema 21.7 


Suponha que convertemos uma sequência S”de m' operações Make-Ser, Union € Finp-Ser em uma sequência S de m 
operações MakE-Ser, Link € Finp-Ser transformando cada Union em duas operações Finp-Ser seguidas por uma operação 
Link. Então, se a sequência S for executada no tempo O(m a(n)), a sequência S"será executada no tempo O(m ” o(n)). 


Prova Visto que cada operação Union na sequência S"é convertida em três operações em S, temos m'<m <3m”. 
Como m = O(m 9, um limite de tempo O(m a(n)) para a sequência convertida .S implica um limite de tempo O(m "o(n)) 
para a sequência original S”. 


No restante desta seção, supomos que a sequência inicial de m” operações Maxe-Ser, Unione Finp-Ser foi 
convertida em uma sequência de m operações Maxe-Ser, Link € Finp-Ser. Agora, provaremos um limite de tempo O(m 
o(n)) para a sequência convertida e apelaremos para o Lema 21.6 para provar o tempo de execução O(m "o(n)) da 
sequência original de m "operações. 


Função potencial 


A função potencial que usamos atribui um potencial fa(x) a cada nó x na floresta de conjuntos disjuntos após q 
operações. Somamos os potenciais de nós para obter o potencial da floresta inteira: Fg = Sx, fa(x), onde Fa denota o 
potencial da floresta após q operações. A floresta está vazia antes da primeira operação, e definimos arbitrariamente Fo 
= 0. Jamais algum potencial Fa será negativo. 

O valor de fa(x) depende de x ser uma raiz da árvore após a g-ésima operação. Se for ou se x.rank = 0, então 
fa(c) = o(n) : x.rank. 

Agora, suponha que após a q-ésima operação x não seja uma raiz e x.rank > 1. Precisamos definir duas funções 
auxiliares em x antes de podermos definir Fa(x). Primeiro, definimos 


nível) = max fk :x.p.rank > Adx.rank)) . 


Isto é, nível(x) é o maior nível k para o qual 4,, aplicada à rank x, não é maior que o posto do pai de x. 
Afirmamos que 


O < nível(x) < a(n), (21.1) 
o que vemos a seguir. Temos 


x.p.rank > xrvank+1 (pelo Lema 21.4) 
=  Adxrank) (pela definição de A (j)) 


o que implica que nível(x) > 0, e temos 


Amlerank) > Al) (porque A,(j) é estritamente crescente) 
> ãm (pela definição de a(n)) 
> xp.rank (pelo Lema 21.6), 


o que implica que nível(x) < a(n). Observe que, em razão de x.p.rank aumentar monotonicamente com o tempo, o 
mesmo ocorre com nível(x). 
A segunda função auxiliar se aplica quando x.rank > 1: 


iter(x) = max [i: x.p.rank > as e» pCeranko). 


Isto é, iter(x) é o maior número de vezes que podemos aplicar a A ível(x), iterativamente, aplicada inicialmente ao 
posto de x, antes de obtermos um valor maior que o posto do pai de x. 
Afirmamos que, quando x.rank > 1, temos 


1 < iter(x) < x.rank, (21.2) 


o que mostramos a seguir. Temos 


x.p.rank O Air MAR) (pela definição de nível(x)) 


nível(x) 


A aço (rank) (pela definição de iteração funcional) , 


nível (x 
o que implica que iter(x) > 1, e temos 


(x. o (xc.rank) = 4 (x.rank) (pela definição de A,(j)) 


PR nível(x)+1 


>  x.p.rank (pela definição de nível(x) , 


o que implica que iter(x) < x.rank. Observe que, como x.p.rank cresce monotonicamente com o tempo, para iter(x) 
diminuir, nível(x) tem de aumentar. Contanto que nível(x) permaneça inalterado, iter(x) deve crescer ou permanecer 
inalterado. 

Estabelecidas essas funções auxiliares, estamos prontos para definir o potencial do nó x após q operações: 


a(n)- x.rank if x isa root or x.rank = O 
é ()= 


(o(n) — nível(x) -x.rank — iter(x) if x isnota rootand x.rank >1. 


Em seguida, investigamos algumas propriedades úteis desses potenciais de nós. 


Lema 21.8 


Para todo nó x, e para todas as contagens de operações q, temos 0 < a(x) < a(n) * x.rank . 
O < 6x) <a(n) - x.rank. 


Prova Se x é uma raiz ou x.rank = 0, então a(x) = a(n) : x.rank por definição. Agora, suponha que x não seja uma 
raiz e que x.rank > 1. Obtemos um limite mferior para a(x) maximizando nível(x) e iter(x). Pelo limite (21.1), nível(x) < 
o«n) - 1 e, pelo limite (21.2), iter(x) > x.rank. Assim, 


o (x) = (a(n)—nível(x))-x.rank — iter(x) 
> (a(n)—(a(n)— 1))-x.rank — x.rank 
= a.rank — x.rank 
=. À 


De modo semelhante, obtemos um limite superior para a(x) minimizando nível(x) e iter(x). Pelo limite (21.1), nível(x) > 
O e, pelo limite (21.2), iter(x) > 1. Portanto, 


P, (x) < (a(n)—0)-x.rank —1 
= o(n)-x.rank — 1 
< a(n)-x.rank. 


Corolário 21.9 


Se o nó x não é uma raiz e x.rank > 0, então fa(x) <a(n) : x.rank. 


Mudanças de potencial e custos amortizados de operações 


Agora, estamos prontos para examinar como as operações de conjuntos disjuntos afetam os potenciais de nós. Se 
entendermos a mudança de potencial provocada por cada operação, poderemos determinar o custo amortizado de 
cada operação. 


Lema 21.10 


Seja x um nó que não é uma raiz, e suponha que a g-ésima operação é Link ou Finp-Ser. Então, após a g-ésima 
operação, fa(x) < fa - (x). Além disso, se x.rank > 1 e nível(x) ou iter(x) mudar devido à g-ésima operação, então 
fa(x) <fa - Hx) - 1. Isto é, o potencial de x não pode aumentar e, se tiver posto positivo e nível(x) ou iter(x) mudar, o 
potencial de x cairá no mínimo uma unidade. 


Prova Como x não é uma raiz, a q-ésima operação não muda x.rank e, como n não muda após as n operações Makr- 
Ser iniciais, o(n) também permanece inalterada. Consequentemente, esses componentes da fórmula para o potencial de 
x permanecem os mesmos após a g-ésima operação. Se x.rank = 0, então fa(x) = fa - 1(x) = 0. Agora, suponha que 
x.rank > 1. Lembre-se de que nível(x) aumenta monotonicamente com o tempo. Se a g-ésima operação deixar nível(x) 
inalterado, iter(x) aumenta ou permanece inalterado. Se nível(x) e iter(x) permanecem inalterados, fa(x) = fa - (x). Se 
nível(x) permanece imalterado e iter(x) aumenta, então ele aumenta, no mínimo, de 1, e assim fa(x) < fa - 1(x) - 1. 
Finalmente, se a q-ésima operação aumentar nível(x), ele aumentará no mínimo de 1, de modo que o valor do termo 
(o(n) - nível(x)) + x.rank cairá no mínimo x.rank. Como nível(x) aumentou, o valor de iter(x) poderá cair, mas, de 
acordo com o limite (21.2), a queda é no máximo x.rank - 1. Assim, o aumento de potencial devido à mudança em 
iter(x) é menor que a queda de potencial devido à mudança em nível(x), e concluímos que fa(x) < fa - 1(x)- 1. 


Nossos três lemas finais mostram que o custo amortizado de cada operação Make-Ser, Link € Finp-Ser é O(o(n)). 
Lembre-se de que, pela equação (17.2), o custo amortizado de cada operação é seu custo real mais o aumento em 
potencial devido à operação. 


Lema 21.11 


O custo amortizado de cada operação Maxe-Ser é O(1). 


Prova Suponha que a q-ésima operação seja Makr-Ser(x). Essa operação cria o nó x com posto 0, de modo que fa(x) 
= (0. Nenhum outro posto ou potencial se altera, e então Fa = Fa - 1. Observar que o custo real da operação Maxe-Ser é 
O(1) conclui a prova. 


Lema 21.12 


O custo amortizado de cada operação Link é O(o(n)). 


Prova Suponha que a g-ésima operação seja Linx(x, y). O custo real da operação Link é O(1). Sem prejuízo da 
generalidade, suponha que a operação Link tone y o pai de x. Para determinar a mudança de potencial devido a Lin, 
observamos que os únicos nós cujos potenciais podem mudar são x, y e os filhos de y imediatamente antes da 
operação. Mostraremos que o único nó cujo potencial pode aumentar devido a Link é y e que seu aumento é no máximo 


o(n): 


* Pelo Lema 21.10, qualquer nó que seja filho de y imediatamente antes de Linx não pode ter seu aumento de 
potencial devido a Lixx. 

* Pela definição de f(x), vemos que, como x era uma raiz antes da q-ésima operação, fw-i(x) 
= o(n)x.rank. Se x.rank = 0, então fa(x) = fa-1(x) = O. Caso contrário, 


b0) < oc(n)-xrank (pelo Corolário 21.9) 
= 40). 


e, assim, o potencial de x diminui. 
* Como y é uma raiz antes de Link, fy- 1(Y) = a(n) - y.rank. A operação Lis deixa y como raiz e deixa o posto de y 
como está ou aumenta o posto de y de 1. Assim, f(y) =fi- (V) oufa (1) =fa- 17) + a(n). 


Portanto, o aumento de potencial devido à operação Linx é no máximo o(n). O custo amortizado da operação Link é 
O(1) + o(n) = O(a(n)). 


Lema 21.13 


O custo amortizado de cada operação Finp-Ser é O(a(n)). 


Prova Suponha que a g-ésima operação seja Frnp-Ser e que o caminho de localização contenha s nós. O custo real da 
operação Finp-Ser é O(s). Mostraremos que nenhum potencial de nó aumenta devido a Finp-Ser e que, no mínimo, 
max(0, s - (a(n) + 2)) nós no caminho de localização têm seu potencial diminuído de no mínimo 1. 

Para ver que nenhum potencial de nó aumenta, primeiro apelamos para o Lema 21.9 para todos os nós exceto a raiz. 
Se x é a raiz, seu potencial é o(n) : x.rank, que não muda. 

Agora, mostramos que max(0, s - (o(n) + 2)) nós têm seu potencial diminuído de no mínimo 1. Seja x um nó no 
caminho de localização, tal que x.rank > 0 e x é seguido em algum lugar no caminho de localização por outro nó y que 
não é uma raiz, onde nível(y) = nível(x) imediatamente antes da operação Finp-Ser. (O nó y não precisa seguir x 
imediatamente no caminho de localização.) Todos os nós exceto, no máximo, o(n) + 2 nós no caminho de localização 
satisfazem essas restrições para x. Os que não as satisfazem são o primeiro nó no caminho de localização (se ele tiver 
posto 0), o último nó no caminho (isto é, a raiz) e o último nó w no caminho para o qual nível(w) = k, para cada k = 0, 
1,2, ...,0(n)- 1. 

Vamos fixar tal nó x, e mostraremos que o potencial de x diminui de, no mínimo, 1. Seja k = nível(x) = nível(y). 
Imediatamente antes da compressão de caminho causada por Finp-Ser, temos 


xprank > AMD(xrank) (pela definição de iter(x)), 
y.p.rank > Ady.rank) (pela definição de nível(y)) , 
y.rank > x.p.rank (pelo Corolário 21.5 e porque y segue x no caminho de localização). 


Reunindo essas desigualdades e sendo i o valor de iter(x) antes da compressão de caminho, temos 


vprank > Adyrank 
>  Adx.p.rank) (porque A,(7) é estritamente crescente) 
> A(AP rank) 


k 


AC ae.rank)) . 


Como a compressão de caminho fará x e y terem o mesmo pai sabemos que, após a compressão de caminho, 
x.p.rank = yp.rank e que a compressão de caminho não diminui y.p.rank. Visto que x.rank não muda, após a 
compressão de caminho temos que x.p.rank > Adi+Hi(x.rank)). Assim, a compressão de caminho fará iter(x) aumentar 
(até no mínimo i + 1) ou nível(x) aumentar (o que ocorre se iter(x) aumentar até no mínimo x.rank + 1). Em qualquer 
caso, pelo Lema 21.10, temos fa (x) < faq - 1(x) - 1. Consequentemente, o potencial de x diminui de no mínimo 1. 

O custo amortizado da operação Finp-Ser é o custo real mais a mudança de potencial. O custo real é O(s), e mostramos 
que o potencial total diminui de, no mínimo, max(0, s - (o (n) + 2)). Portanto, o custo amortizado é, no máximo, O(s) - 
(s - (a (n) + 2) = O(s) - s + O(a (n)) = Ola (n)), já que podemos aumentar a escala das unidades de potencial para 
dominar a constante oculta em O(s). 

Reunindo os lemas precedentes, temos o teorema a seguir. 


Teorema 21.14 


Uma sequência de m operações Maxe-Ser, Union € Finp-Ser, das quais n são operações Maxe-Ser, pode ser executada 
em uma floresta de conjuntos disjuntos com união pelo posto e compressão de caminho no tempo do pior caso O(m 


o(n)). 


Prova Imediata, pelos Lemas 21.7, 21.11,21.12 e 21.13. 


Exercícios 

21.4-1 Proveo Lema 21.4. 

21.4-2 Prove que todo nó tem posto no máximo igual a lg n. 

21.4-3 De acordo como Exercício 21.4-2, quantos bits são necessários para armazenar x.rank >para cada nó x? 


21.4-4 Usando o Exercício 21.4-2 dê uma prova simples de que operações em uma floresta de conjuntos disjuntos 
com união pelo posto, mas sem compressão de caminho, são executadas no tempo O(m lg n). 


21.4-5 O professor Dante argumenta que, como os postos de nós aumentam estritamente ao longo de um caminho 
simples até a raiz, os níveis de nós devem aumentar monotonicamente ao longo do caminho. Em outras 
palavras, se x.rank > 0 e x.p não é uma raiz, nível(x) < nível(x.p). O professor está correto? 


21.4-6 * Considere a função o(n) = minfk : A(1) > lg(n + 1)). Mostre que a(n) < 3 para todos os valores 
práticos de n e, usando o Exercício 21.4-2, mostre como modificar o argumento da função potencial para 
provar que podemos executar uma sequência de m operações Maxe-Ser, Union € Finp-Ser, das quais n são 


operações Maxe-Ser, em uma floresta de conjuntos disjuntos com união pelo posto e compressão de caminho 
no tempo do pior caso O(m a (n)). 


Problemas 


21-1 


Mínimo off-line 


O problema do mínimo off-line nos pede para manter um conjunto dinâmico T de elementos do domínio (1, 
2, ..., ny sob as operações Insert E Exrracr-Min. Temos uma sequência .S de n chamadas Inserre m chamadas 
Exrracr-Min, onde cada chave em (1, 2, ..., n) é inserida exatamente uma vez. Desejamos determmar qual 
chave é retornada por cada chamada Exrracr-Mn. Especificamente, desejamos preencher um arranjo 
extraido[1 .. m], onde para i = 1, 2, ..., m, extraido[i] é a chave retornada pela i-ésima chamada Exrracr- 
Min. O problema é “off-line” no sentido de que temos a possibilidade de processar a sequência S inteira antes 
de determinar quaisquer das chaves retornadas. 


a. Na seguinte instância do problema do mínimo ofE-line, cada operação Inserr(i) é representada pelo valor 
de i, e cada Exrracr-Mnn é representada pela letra E: 


4,8,E,3,E,9,2,6, E, E, E, 1,7, E, 5. 
Preencha os valores corretos no arranjo extraído. 


Para desenvolver um algoritmo para esse problema, desmembramos a sequência S em subsequências 
homogêneas. Isto é, representamos S por 


LE LB,EB,.. Im, E Im+1, 


onde cada E representa uma única chamada Exrracr-Mnn, e cada I; representa uma sequência (possivelmente 
vazia) de chamadas Inserr. Para cada subsequência I;, colocamos inicialmente as chaves inseridas por essas 
operações em um conjunto K,, que é vazio se I/ é vazio. Em seguida, fazemos: 


Orr-LINE-MINIMUM(M, n) 
lfori=lton 


2 
3 
4 
o 


6 


determinar j tal que i EK, 
ifj=m+1 
extraído[;] = 1 
seja | o menor valor maior que j 
para o qual o conjunto K, existe 
K, = K UK, destruindo K, 


7 return extraído 


21-2 


b. Demonstre que o arranjo extraído retornado por Orr-Lin-Minimum é correto. 


c. Descreva como implementar Orr-Line-Minimuu eficientemente com uma estrutura de dados de conjuntos 
disjuntos. Dê um limite justo para o tempo de execução do pior caso de sua implementação. 


Determinação da profundidade 


No problema de determinação da profundidade, mantemos uma floresta F = (T;) de árvores enraizadas 
sob três operações: 


MAkE-TrEE(V) cria uma árvore cujo único nó é v. 


21-3 


Finp-DerrH(v) retorna a profundidade do nó v dentro de sua árvore. 


Grarr(r, v) faz o nó r, que supomos ser a raiz de uma árvore, se tornar o filho do nó v, o qual supomos estar 
em uma árvore diferente de r, mas que pode ou não ser ele próprio uma raiz. 


a. Suponha que utilizemos uma representação de árvore semelhante a uma floresta de conjuntos disjuntos: 
v.p é o pai do nó v, exceto que v.p = v se v é uma raiz. Suponha ainda mais que implementemos Grarr(r, 
v), atribuindo rp = v e Finp-Derrn(v) segundo o caminho de localização até a raiz, devolvendo uma 
contagem de todos os nós encontrados, exceto v. Mostre que o tempo de execução no pior caso de uma 
sequência de m operações Make-TreE, FinD-DerrH E Grarr é Q(1nº). 


Usando a heurística de união pelo posto e compressão de caminho, podemos reduzir o tempo de execução do 
pior caso. Usamos a floresta de conjuntos disjuntos S = (S,+, onde cada conjunto S, (que é ele próprio uma 
árvore) corresponde a uma árvore 7, na floresta F. Contudo, a estrutura de árvore dentro de um conjunto S, 
não corresponde necessariamente à de T;. De fato, a implementação de 5, não registra as relações pai-filho 
exatas mas, apesar disso, nos permite determinar a profundidade de qualquer nó em T.. 


A ideia fundamental é manter em cada nó v uma “pseudodistância” v.d, definida de tal modo que a soma das 
pseudodistâncias ao longo do caminho simples de v até a raiz de seu conjunto S; seja igual à profundidade de 
v em T.. Isto é, se o caminho simples de v até sua raz em S, é vo, V,, ... vp ondev;=vev, éarazdes,, 


o -d. 


b. Dê uma implementação de Make-Trer. 


então a profundidade de v em 7. é 


c. Mostre como modificar Finp-Serpara implementar Finp-Derrn. Sua implementação deve executar 
compressão de caminho e seu tempo de execução deve ser linear em relação ao comprimento do 
caminho de localização. Certifique-se de que sua implementação atualiza pseudodistâncias corretamente. 


d. Mostre como implementar Grarr(r, v), que combina os conjuntos que contêm 7 e v, modificando os 
procedimentos Unione Link. Certifique-se de que sua implementação atualize pseudodistâncias 
corretamente. Observe que a raiz de um conjunto S; não é necessariamente a raiz da árvore 
correspondente 7. 


e. Dê um limite justo para o tempo de execução do pior caso de uma sequência de m operações Make-TReE, 
Finp-DeprH € Grarr, das quais n são operações Make-TREE. 


Algoritmo ofE- line de Tarjan para o menor ancestral comum 


O menor ancestral comum de dois nós u e v em uma árvore enraizada T é o nó w que é um ancestral de u 
e v e que tem a maior profundidade em T. No problema dos menores ancestrais comuns off-line, temos 
uma árvore enraizada T e um conjunto arbitrário P = ffu, vi) de pares não ordenados de nós em T e 
desejamos determinar o menor ancestral comum de cada par em P. 


Para resolver o problema dos menores ancestrais comuns ofEline, o procedimento a seguir executa um 
percurso da árvore T com a chamada inicial LCA(T. raiz). Supomos que cada nó tem a cor Wurre antes do 
percurso. 


LCA(u) 


1 Maxe-SeT(u) 
2 Frnp-Ser(u).ancestral = u 
3 for cada filho v de u em T 
4 LCA(v) 
5 Unton(u, v) 
6 Frnp-Ser(u).ancestral = u 
/ u.cor = BLACK 
8 for cada nó v tal que (u,v) E P 
9 if v.cor == BLACK 
10 imprimir “O menor ancestral comum de” 
ue” v “é” FiND-SET(U).ancestral 
a. Demonstre que a linha 10 é executada exatamente uma vez para cada par (u, v! E P. 
b. Demonstre que, no momento da chamada LC A(u), o número de conjuntos na estrutura de dados de 
conjuntos disjuntos é igual à profundidade de u em 7. 
c. Prove que LCA imprime corretamente o menor ancestral comum de u e v para cada par (u, v! E P. 
d. Analise o tempo de execução de LCA considerando que usamos a implementação da estrutura de dados 
de conjuntos disjuntos da Seção 21.3. 
NorTas DO CAPÍTULO 


Muítos dos resultados importantes para estruturas de dados de conjuntos disjuntos se devem em parte a R. E. 
Tarjan. Usando análise agregada, Tarjan [328, 330] deu o primeiro limite superior restrito em termos da inversa o” (m, 
n) de crescimento muito lento da função de Ackermamn. (A função A,(/) dada na Seção 21.4 é semelhante à função de 
Ackermamn, e a função o(n) é semelhante à inversa. Ambas o(n) e o” (m, n) são no máximo 4 para todos os valores 
concebíveis de m e n.) Um limite superior O(m le* n) foi provado antes por Hopcroft e Ullman [5, 179]. O tratamento 
na Seção 21.4 foi adaptado de uma análise posterior de Tarjan [332] que, por sua vez, é baseada em uma análise de 
Kozen [220]. Harfst e Reingold [161] dão uma versão baseada em potencial do limite anterior de Tarjan. 

Tarjan e van Leeuwen [333] discutem variantes da heurística de compressão de caminho, inclusive “métodos de 
uma passagem” que, às vezes, oferecem melhores fatores constantes em seu desempenho que os métodos de duas 
passagens. Assim como as primeiras análises da heurística básica de compressão de caminho realizadas apenas por 
Tarjan, as realizadas por Tarjan e Leeuwen são agregadas. Mais tarde, Harfst e Reingold [161] mostraram como fazer 
uma pequena mudança na função potencial para adaptar sua análise de compressão de caminho a essas variantes de 
uma passagem. Gabow e Tarjan [121] mostram que, em certas aplicações, é possível fazer com que as operações em 
conjuntos disjuntos sejam executadas no tempo O(m). 

Tarjan [329] mostrou que um limite inferior de tempo (m o” (m, n)) é exigido para operações em qualquer estrutura 
de dados de conjuntos disjuntos que satisfaça certas condições técnicas. Mais tarde, esse limite inferior foi generalizado 
por Fredman e Saks [113], que mostraram que, no pior caso, (mo” (m, n)) palavras de (lg n) bits devem ser acessadas. 


iQuando as arestas do grafo são estáticas — não mudam com o tempo —, podemos calcular as componentes conexas mais rapidamente 
usando busca em profundidade (Exercício 22.3-12). Contudo, às vezes, as arestas são acrescentadas dinamicamente e precisamos manter 
as componentes conexas à medida que cada aresta é acrescentada. Nesse caso, a implementação dada aqui pode ser mais eficiente do 
que executar uma nova busca primeiro em profundidade para cada nova aresta. 


Parte 


ALGORITMOS DE GRAFOS 


InrroDUÇÃO 


Problemas sobre grafos estão sempre presentes em ciência da computação, e algoritmos para trabalhar com eles 
são fundamentais para a área. Centenas de problemas computacionais interessantes são expressos em termos de grafos. 
Nesta parte, examinaremos alguns dos mais significativos. 

O Capítulo 22 mostra como podemos representar um grafo em um computador e depois discute os algoritmos 
baseados na pesquisa de um grafo utilizando busca em largura ou busca em profundidade. O capítulo apresenta duas 
aplicações de busca em profundidade: ordenação topológica de um grafo acíclico dirigido e decomposição de um grafo 
dirigido em suas componentes fortemente conexas. 

O Capítulo 23 descreve como calcular uma árvore geradora de peso mínimo de um grafo: o modo de menor peso 
para conectar todos os vértices quando cada aresta tem um peso associado. Os algoritmos para calcular árvores 
geradoras mínimas são bons exemplos de algoritmos gulosos (veja o Capítulo 16). 

Os Capítulos 24 e 25 consideram como calcular caminhos mínimos entre vértices quando cada aresta tem um 
comprimento ou “peso” associado. O Capítulo 24 mostra como encontrar caminhos mínimos de determinado vértice de 
fonte até todos os outros vértices, e o Capítulo 25 examina métodos para calcular caminhos mínimos entre cada par de 
vértices. 

Finalmente, o Capítulo 26 mostra como calcular um fluxo máximo de material em uma rede de fluxo, que é um 
grafo dirigido que tem um vértice de fonte de material especificado, um vértice sorvedouro especificado e capacidades 
especificadas para a quantidade de material que pode percorrer cada aresta dirigida. Esse problema geral surge sob 
muitas formas, e um bom algoritmo para calcular fluxos máximos pode ajudar a resolver eficientemente uma variedade 
de problemas relacionados. 

Quando caracterizamos o tempo de execução de um algoritmo de grafo em um determinado grafo G = (V, E), 
normalmente medimos o tamanho da entrada em termos do número de vértices |V] e do número de arestas |E| do grafo. 
Isto é, descrevemos o tamanho da entrada com dois parâmetros, não apenas um. Adotamos uma convenção de 
notação comum para esses parâmetros. Dentro da notação assintótica (como a notação O ou a notação Q), e somente 
dentro de tal notação, o símbolo V denota |V] e o símbolo E denota [E]. Por exemplo, poderíamos dizer que “o 
algoritmo é executado em tempo O(VE)”, significando que o algoritmo é executado no tempo O(|VIE)). Essa 
convenção torna as fórmulas de tempo de execução mais fáceis de ler, sem risco de ambiguidade. 

Outra convenção que adotamos aparece no pseudocódigo. Denotamos o conjunto de vértices de um grafo G por 
G.V e seu conjunto de arestas por G.E. Isto é, o pseudocódigo vê os conjuntos de vértices e arestas como atributos de 
um grafo. 


ps; ) ÁLGORITMOS ELEMENTARES EM GRAFOS 


Este capítulo apresenta métodos para representar um grafo e para executar busca em um grafo. Executar busca em 
um grafo significa seguir sistematicamente as arestas do grafo de modo a visitar os vértices do grafo. Um algoritmo de 
busca pode revelar muita coisa sobre a estrutura de um grafo. Muitos algoritmos começam executando uma busca em 
seu grafo de entrada para obter essas informações estruturais. Vários outros algoritmos trabalham em cima de uma 
busca básica em grafos. As técnicas para executar busca em um grafo estão no núcleo da área de algoritmos em grafos. 

A Seção 22.1 discute as duas representações computacionais mais comuns de grafos: como listas de adjacências e 
como matrizes de adjacências. A Seção 22.2 apresenta um algoritmo simples de busca em grafos, denominado busca 
em largura, e mostra como criar uma árvore de busca em largura. A Seção 22.3 apresenta a busca em profundidade e 
prova alguns resultados padrões para a ordem em que a busca em profundidade visita os vértices. A Seção 22.4 dá 
nossa primeira aplicação real de busca em profindidade: ordenação topológica em um grafo acíclico dirigido. Uma 
segunda aplicação da busca em profundidade, encontrar as componentes fortemente conexas de um grafo dirigido, é o 
tópico da Seção 22.5. 


22.1 REPRESENTAÇÕES DE GRAFOS 


Podemos escolher entre dois modos padrões para representar um grafo G = (V, E): como uma coleção de listas 
de adjacências ou como uma matriz de adjacências. Qualquer desses modos se aplica a grafos dirigidos e não dirigidos. 
Como a representação por lista de adjacências nos dá um modo compacto de representar grafos esparsos — aqueles 
para os quais |E| é muito menor que |V2 —, ela é, em geral, o método preferido. A maioria dos algoritmos de grafos 
apresentados neste livro supõe que um grafo de entrada é representado sob a forma de lista de adjacências. Contudo, 
uma representação por matriz de adjacências pode ser preferível quando o grafo é denso — [E] está próximo de |V|2 
— ou quando precisamos saber rapidamente se há uma aresta conectando dois vértices dados. Por exemplo, dois dos 
algoritmos de caminhos mínimos para todos os pares apresentados no Capítulo 25 supõem que seus grafos de entrada 
são representados por matrizes de adjacências. 

A representação por lista de adjacências de um grafo G = (V, E) consiste em um arranjo Ad;. de |V listas, uma 
para cada vértice em V. Para cada u €& V, a lista de adjacências Adj[u] contém todos o vértices v tais que existe uma 
aresta (u, v) € E. Isto é, Adj[u] consiste em todos os vértices adjacentes a u em G. (Alternativamente, ela pode 
conter ponteiros para esses vértices.) Visto que as listas de adjacências representam os vértices de um grafo, em 
pseudocódigo tratamos o arranjo Ad; como um atributo do grafo, exatamente como tratamos o conjunto de vértices E. 
Portanto, em pseudocódigo, veremos notação tal como G.4d;[u]. A Figura 22.1(b) é uma representação por lista de 
adjacências do grafo não dirigido na Figura 22.1(a). De modo semelhante, a Figura 22.2(b) é uma representação por 
lista de adjacências do grafo dirigido na Figura 22.2(a). 
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Figura 22.1 Duas representações de um grafo não dirigido. (a) Um grafo não dirigido G comcinco vértices e sete arestas. (b) Uma 
representação de G por lista de adjacências. (c) A representação de G por matriz de adjacências. 
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Figura 22.2 Duas representações de um grafo dirigido. (a) Um grafo dirigido G comseis vértices e oito arestas. (b) Uma representação 
de G por lista de adjacências. (c) A representação de G por matriz de adjacências. 


Se G é um grafo dirigido, a soma dos comprimentos de todas as listas de adjacências é |E], já que uma aresta da 
forma (u, v) é representada fazendo com que v apareça em Adj[u]. Se G é um grafo não dirigido, a soma dos 
comprimentos de todas as listas de adjacências é 2/E], já que, se (u, v) é uma aresta não dirigida, então u aparece na 
lista de adjacências de v e vice-versa. Quer os grafos sejam dirigidos ou não dirigidos, a representação por lista de 
adjacências tem a seguinte propriedade interessante: a quantidade de memória que ela exige é Q(V + E). 

Podemos adaptar imediatamente as listas de adjacências para representar grafos ponderados, isto é, grafos nos 
quais cada aresta tem um peso associado, normalmente dado por uma função peso w : E — . Por exemplo, seja G = 
(V, E) um grafo ponderado com função peso w. Simplesmente armazenamos o peso w(u, v) da aresta (u, v) & E com 
o vértice v na lista de adjacências de u. A representação por lista de adjacências é bastante robusta no sentido de que 
podemos modificá-la para suportar muitas outras variantes de grafos. 

Uma desvantagem potencial da representação por lista de adjacências é que ela não proporciona nenhum modo 
mais rápido para determinar se uma dada aresta (u, v) está presente no grafo do que procurar v na lista de adjacências 
Adilu]. Essa desvantagem pode ser contornada por uma representação por matriz de adjacências do grafo, porém ao 
custo de utilizar assintoticamente mais memória. (Veja no Exercício 22.1-8 sugestões de variações para listas de 
adjacências que permitem busca mais rápida de arestas.) 

No caso da representação por matriz de adjacências de um grafo G = (V, E), supomos que os vértices são 
numerados 1, 2, ..., |V] de alguma maneira arbitrária. Então, a representação por matriz de adjacências de um grafo G 
consiste em uma matriz || x |V] 4 = (a;;) tal que 


1 se(i, EE, 


3 O caso contrário 


As Figuras 22.1(c) e 22.2(c) são as matrizes de adjacências do grafo não dirigido e do grafo dirigido nas Figuras 
22.1(a) e 22.2(a), respectivamente. A matriz de adjacências de um grafo exige Q(V,) de memória, independentemente 
do número de arestas no grafo. 

Observe a simetria ao longo da diagonal principal da matriz de adjacências na Figura 22.1(c). Visto que, em um 
gráfico não dirigido, (u, v) e (v, u) representam a mesma aresta, a matriz de adjacências 4 de um grafo não dirigido é 
sua própria transposta: 4 = 4,. Em algumas aplicações, vale a pena armazenar somente as entradas que estão na 
diagonal e acima da diagonal da matriz de adjacências, o que reduz quase à metade a memória necessária para 
armazenar o grafo. 

Assim como a representação por lista de adjacências de um grafo, uma matriz de adjacências pode representar um 
grafo ponderado. Por exemplo, se G = (V, E) é um grafo ponderado com função peso de aresta w, podemos 
simplesmente armazenar o peso w(u, v) da aresta (u, v) € E como a entrada na linha u e coluna v da matriz de 
adjacências. Se uma aresta não existe, podemos armazenar um valor nn como sua entrada de matriz correspondente, se 
bem que em muitos problemas é conveniente usar um valor como O ou 0. 

Embora a representação por lista de adjacências seja assintoticamente, no mínimo, tão eficiente em termos de 
espaço quanto a representação por matriz de adjacências, matrizes de adjacências são mais simples e portanto 
preferíveis quando os grafos são razoavelmente pequenos. Além disso, matrizes de adjacências têm uma vantagem 
adicional para grafos não ponderados: exigem somente um bit por entrada. 


Representação de atributos 


A maioria dos algoritmos que funcionam em grafos precisa manter atributos para vértices e/ou arestas. Indicamos 
esses atributos usando nossa notação usual, por exemplo, v.d para um atributo d de um vértice v. Quando indicamos 
arestas como pares de vértices, usamos o mesmo estilo de notação. Por exemplo, se arestas têm um atributo f, 
denotamos esse atributo para a aresta (u, v) por (u, v). f. Para a finalidade de apresentar e entender algoritmos, nossa 
notação de atributo é suficiente. 

Implementar atributos de vértice e aresta em programas reais pode ser uma história inteiramente diferente. Não há 
nenhum modo que seja reconhecidamente melhor para armazenar e acessar atributos de vértice e de aresta. Dada uma 
situação, é provável que sua decisão dependerá da linguagem de programação que estiver usando, do algoritmo que 
estiver implementando e de como o resto de seu programa usará o grafo. Se você representar um grafo utilizando listas 
de adjacências, um projeto possível representa atributos de vértice em arranjos adicionais, tal como um arranjo d[1... 
|V|], que é paralelo ao arranjo Adj. Se os vértices adjacentes a u estão em Adj[u], então aquilo que denominamos 
atributo u.d seria realmente armazenado na entrada de arranjo d[u]. Há muitos outros modos possíveis de implementar 
atributos. Por exemplo, em uma linguagem de programação orientada a objeto, atributos de vértices poderiam ser 
representados como variáveis de instâncias dentro de uma subclasse de uma classe Vertex. 


Exercícios 


22.1-1 Dada uma representação por lista de adjacências de um grafo dirigido, qual o tempo necessário para calcular 
os graus de saída de todos os vértices? Qual o tempo necessário para calcular os graus de entrada? 


22.1-2 Dê uma representação por lista de adjacências para uma árvore binária completa em sete vértices. Dê uma 
representação por matriz de adjacências equivalente. Suponha que os vértices são numerados de 1 até 7 
como em um heap binário. 


22.1-3 O transposto de um grafo dirigido G = (V, E) éo grafo G, = (V, E,), onde E, = I(v,u)E VxV:(u,v) 
E E). Assim, G, é G comtodas as suas arestas invertidas. Descreva algoritmos eficientes para calcular G, a 
partir de G, para a representação por lista de adjacências e também para a representação por matriz de 
adjacências de G. Analise os tempos de execução de seus algoritmos. 


22.1-4 Dada uma representação por lista de adjacências de um multigrafo G = (V, E), descreva um algoritmo de 
tempo O(V + E) para calcular a representação por lista de adjacências do grafo não dirigido “equivalente” G” 
= (V, E”, onde E” consiste nas arestas em E onde todas as arestas múltiplas entre dois vértices foram 
substituídas por uma aresta única e onde todos os laços foram removidos. 


22.1-5 O quadrado de um grafo dirigido G = (V, E) é o grafo G,= (V, E,) em que (u, v) E E, se e somente se G 
contiver um caminho que tenha no máximo duas arestas entre u e v. Descreva algoritmos eficientes para 
calcular G, a partir de G para uma representação por lista de adjacências e para uma representação por 
matriz de adjacências de G. Analise os tempos de execução de seus algoritmos. 


22.1-6 A maioria dos algoritmos em grafos que adota uma representação por matriz de adjacências como entrada 
exige o tempo (V,), mas há algumas exceções. Mostre como determinar se um grafo dirigido G contém um 
sorvedouro universal — um vértice com grau de entrada |V| — 1 e grau de saída O — no tempo O(V), dada 
uma matriz de adjacências para G. 


22.1-7 A matriz de incidência de um graío dirigido G = (V, E) sem nenhum laço é uma matriz |V] x |E| B = (b,) tal 
que 


—1 ifedge;j leaves vertex1, 


b, = 1 ifedge; enters vertexi, 


O caso contrário. 
Descreva o que representam as entradas do produto de matrizes BB,,, onde B, é a transposta de B. 


22.1-8 Suponha que, em vez de uma lista ligada, cada entrada de arranjo Adj[u] seja uma tabela de espalhamento 
que contém os vértices v para os quais (u, v) E E. Se todas as buscas de arestas forem igualmente 
prováveis, qual é o tempo esperado para determinar se uma aresta está no grafo? Quais são as desvantagens 
desse esquema? Sugira uma estrutura de dados alternativa para cada lista de arestas que resolva esses 
problemas. Sua alternativa tem desvantagens em comparação coma tabela de espalhamento? 


22.2 Busca EM LARGURA 


A busca em largura é um dos algoritmos mais simples para executar busca em um grafo e é o arquétipo de muitos 
algoritmos de grafos importantes. O algoritmo de árvore geradora mínima de Prim (Seção 23.2) e o algoritmo de 
caminhos mínimos de fonte única de Dijkstra (Seção 24.3) usam ideias semelhantes às que aparecem na busca em 
largura. 

Dado um grafo G = (V, E) e um vértice fonte s, a busca em largura explora sistematicamente as arestas de G para 
“descobrir” cada vértice que pode ser alcançado a partir de s. O algoritmo calcula a distância (menor número de 
arestas) de s até cada vértice que pode ser alcançado. Produz também uma “árvore de busca em largura” com raiz s 
que contém todos os vértices que podem ser alcançados. Para qualquer vértice v que pode ser alcançado de s, o 
caminho simples na árvore de busca em largura de s até v corresponde a um “caminho mínimo” de s a v em G, isto é, 
um caminho que contém o menor número de arestas. O algoritmo funciona em grafos dirigidos, bem como em grafos 
não dirigidos. 

A busca em largura tem esse nome porque expande a fronteira entre vértices descobertos e não descobertos 
uniformemente ao longo da extensão da fronteira. Isto é, o algoritmo descobre todos os vértices à distância k de s, 
antes de descobrir quaisquer vértices à distância k + 1. 

Para controlar o progresso, a busca em largura pinta cada vértice de branco, cinzento ou preto. No início, todos os 
vértices são brancos, e mais tarde eles podem se tornar cinzentos e depois pretos. Um vértice é descoberto na primeira 


vez em que é encontrado durante a busca, e nesse momento ele se torna não branco. Portanto, vértices cinzentos e 
pretos são vértices descobertos, mas a busca em largura distingue entre eles para assegurar que a busca prossiga sendo 
em largura.! Se (u, v) € E e o vértice u é preto, então o vértice v é cinzento ou preto; isto é, todos os vértices 
adjacentes a vértices pretos foram descobertos. Vértices cinzentos podem ter alguns vértices adjacentes brancos; eles 
representam a fronteira entre vértices descobertos e não descobertos. 

A busca em largura constrói uma árvore em largura, que contém inicialmente apenas sua raiz, que é o vértice de 
fonte s. Sempre que a busca descobre um vértice branco v no curso da varredura da lista de adjacências de um vértice 
u já descoberto, o vértice v e a aresta (u, v) são acrescentados à árvore. Dizemos que u é o predecessor ou pai de v 
na árvore de busca em largura. Visto que um vértice é descoberto no máximo uma vez, ele tem no máximo um pai. 
Relações de ancestral e descendente na árvore de busca em largura são definidas em relação à raiz s da maneira usual: 
se u está em um caminho simples na árvore que vai da raiz s até o vértice v, então u é um ancestral de v,e v é um 
descendente de u. 

O procedimento de busca em largura BFS mostrado a seguir supõe que o grafo de entrada G = (V, E) é 
representado com a utilização de listas de adjacências. Ele anexa vários atributos adicionais a cada vértice no grafo. 
Armazenamos a cor de cada vértice u &€ V no atributo u.cor e o predecessor de u no atributo u.p. Se u não tem 
nenhum predecessor (por exemplo, se u = s ou se u não foi descoberto), então u.p = nm. O atributo u.d mantém a 
distância da fonte s ao vértice u calculada pelo algoritmo. O algoritmo também utiliza uma fila Q do tipo primeiro a 
entrar, primeiro a sair (veja a Seção 10.1) para gerenciar o conjunto de vértices cinzentos. 


BFS(G, s) 


1 for cada vértice u E V[G] — Is) 

Pá U.cor = BRANCO 

3 u.d = 00 

4 u.T = NIL 

5 S.cor = CINZENTO 

6 sã =0 

7 S.7 = NIL 

8 Q=4 

9 EnNQUEUE(O, 5) 

10 while O = () 

a! u = DeQuEUE(O) 

tz for cada v = Adj[u] 

13 if v.cor == BRANCO 

14 V.cor == CINZENTO 
15 vd=ud+1 
16 Um=U 

17 ENQUEUE(O, v) 
18 u.cor = PRETO 


A Figura 22.3 ilustra o progresso de BFS em um grafo exemplo. 

O procedimento BFS funciona da maneira descrita a seguir. Com a exceção do vértice de fonte s, as linhas 1-4 
pintam todos os vértices de branco, definem u.d como infinito para todo vértice u e definem o pai de todo vértice como 
níL. A linha 5 pinta s de cinzento, já que consideramos que ele é descoberto quando o procedimento começa. A linha 6 
inicializa s.d como 0, e a linha 7 define o predecessor do fonte como nr. As linhas 8-9 inicializam Q como a fila que 
contém apenas o vértice s. 
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Figura 22.3 O funcionamento de BFS em um grafo não dirigido. As arestas da árvore aparecem sombreadas à medida que são 
produzidas por BFS. O valor de u.d aparece dentro de cada vértice u. A fila O é mostrada no início de cada iteração do laço while das 
linhas 10-18. As distâncias de vértices são mostradas abaixo dos vértices na fila. 


O laço while das linhas 10-18 itera enquanto houver vértices cinzentos, que são vértices descobertos cujas listas 
de adjacências ainda não foram totalmente examinadas. Esse laço while mantém o seguinte invariante: 

No teste na linha 10, a fila O consiste no conjunto de vértices cinzentos. 

Se bem que não usaremos esse invariante de laço para provar correção, é fácil ver que ele é válido antes da 
primeira iteração e que cada iteração do laço mantém o invariante. Antes da primeira iteração, o único vértice cinzento, 
e o único vértice em Q, é o vértice de fonte s. A linha 11 determma o vértice cinzento u no início da fila O e o remove de 
Q. O laço for das linhas 12-17 considera cada vértice v na lista de adjacências de u. Se v é branco, então ainda não 
foi descoberto, e o procedimento o descobre executando as linhas 14-17. O procedimento pinta o vértice v de 
cinzento, define sua distância v.d como u.d + 1, registra u como seu pai v.p e o coloca no final da fila O. Uma vez 
examinados todos os vértices na lista de adjacências de u, o procedimento pinta u de preto na linha 18. O invariante de 
laço é mantido porque sempre que um vértice é pintado de cinzento (na linha 14), ele é também enfileirado (na linha 17) 
e, sempre que um vértice é retirado da fila (na linha 11), ele é também pintado de preto (na linha 18). 

Os resultados da busca em largura podem depender da ordem na qual os vizinhos de um determinado vértice são 
visitados na linha 12; a árvore de busca em largura pode variar, mas as distâncias d calculadas pelo algoritmo não 
variam (veja o Exercício 22.2-5). 


Análise 


Antes de provar as várias propriedades da busca em largura, realizamos o trabalho um pouco mais fácil de analisar 
seu tempo de execução em um grafo de entrada G = (V, E). Utilizamos análise agregada, como vimos na Seção 17.1. 
Após a inicialização, a busca em largura nunca pinta um vértice de branco e, assim, o teste na linha 13 assegura que 
cada vértice seja colocado na fila no máximo uma vez, e portanto, é retirado da fila no máximo uma vez. As operações 
de enfileirar e desenfileirar demoram o tempo O(1) e, assim, o tempo total dedicado a operações de fila é O(V). Como 
o procedimento varre a lista de adjacências de cada vértice somente quando o vértice é desenfileirado, varre cada linha 
de adjacências no máximo uma vez. Visto que a soma dos comprimentos de todas as listas de adjacências é Q(E), o 
tempo total gasto na varredura das listas de adjacências é O(E). A sobrecarga de inicialização é O(V) e, portanto, o 
tempo de execução total do procedimento BFS é O(V + E). Assim, a busca em largura é executada em tempo linear 
em relação ao tamanho da representação por lista de adjacências de G. 


Caminhos mínimos 


No início desta seção, afirmamos que a busca em largura encontra a distância até cada vértice que pode ser 
alcançado em um grafo G = (V, E) partindo de um determmado vértice de fonte s E V. Defina a distância do 
caminho mínimo d(s, v) de s a v como o número mínimo de arestas em qualquer caminho do vértice s ao vértice v; se 
não há nenhum caminho de s a v, então d(s, v) = oo. Denominamos um caminho de comprimento d(s, v) de s a v 
caminho mínimo? de s a v. Antes de mostrar que a busca em largura calcula corretamente distâncias de caminhos 
mínimos, examinamos uma propriedade importante de distâncias de caminhos mínimos. 


Lema 22.1 


Seja G = (V, E) um grafo dirigido ou não dirigido e seja s &E V um vértice arbitrário. Então, para qualquer aresta (u, v) 
E E,>d(s,v)<d(s,u)+1. 


Prova Se u pode ser alcançado a partir de s, então o mesmo ocorre com v. Nesse caso, o caminho mínimo de s a v 
não pode ser mais longo que o caminho mínimo de s a u seguido pela aresta (u, v) e. assim. a desigualdade vale. Se u 
não pode ser alcançado de s, então d(s, u) = 0, e a desigualdade é válida. 


Queremos mostrar que BFS calcula adequadamente v.d = d(s, v) para cada vértice v & V. Primeiro, mostramos 
que v.d limita d(s, v) por cima. 


Lema 22.2 
Seja G = (V, E) um grafo dirigido ou não dirigido e suponha que BFS seja executado em G partindo de um dado 
vértice de fonte s & V Então, no término, para cada vértice v € V, o valor v.d calculado por BFS satisfaz v.d > d(s, 


v). 


Prova Utilizamos indução em relação ao número de operações Enqueur. Nossa hipótese indutiva é que v.d > d(s, v) 
para todo v E V. 
A base da indução é a situação imediatamente após s ser enfileirado na linha 9 de BFS. Aqui, a hipótese indutiva se 
mantém válida porque s.d=0=d(s,s)ev.d=o0>d(s,s) paratodov € V- (sh. 

Para o passo de indução, considere um vértice branco v que é descoberto durante a busca de um vértice u. A 
hipótese de indução implica que u.d > d(s, u). Pela atribuição executada pela linha 15 e pelo Lema 22.1, obtemos 


mm = ud+1 
ó(s,u) + 1 
o(s, 0). 


IV IV 


Então o vértice v é enfileirado e nunca será enfileirado novamente porque ele também é pintado de cinzento, e a cláusula 
then das linhas 14-17 é executada somente para vértices brancos. Assim, o valor de v.d nunca muda novamente, e a 
hipótese de indução é mantida. 


Para provar que d[v] = d(s, v), primeiro devemos mostrar com mais precisão como a fila Q funciona durante o 
curso de BFS. O próximo lema mostra que, em todas as vezes, a fila contém no máximo dois valores d distintos. 


Lema 22.3 


Suponha que durante a execução de BFS em um grafo G = (V, E), a fila Q contenha os vértices (v,, V,, ..., V,), onde v, 
éoinício deQ ev é o final Enão, vd<v.d+levid<v;+ldparai=1,2,..,r-—1. 


Prova A prova é por indução em relação ao número de operações de fila. Inicialmente, quando a fila contém apenas s, 
o lema certamente é válido. 

Para o passo de indução, devemos provar que o lema se mantém válido tanto depois do desenfileiramento quanto 
do enfileiramento de um vértice. Se o início v, da fila é desenfileirado, v, torna-se o novo início. (Se a fila se torna vazia, 
então o lema se mantém válido vacuosamente.) 

Pela hipótese de indução, v,.d < v,.d. Mas, então, temos v.d<v,d+1<v,d+ 1,e as desigualdades restantes 
não são afetadas. Assim, o lema prossegue com v, como início. Para entender o que acontece quando enfileiramos um 
vértice, precisamos examinar o código mais minuciosamente. Quando enfileiramos um vértice v na linha 17 de BFS, ele 
se torna v, + 1. Nesse momento, já removemos da fila O o vértice u cuja lista de adjacências está sendo examinada e, 
pela hipótese de indução, o novo início v, tem v,.d>u.d. Assim v;+ld=vd=ud+1<v,d+ 1. Pela hpótese 
indutíva, temos também vd <u.d + 1 e, portanto, vd<ud+1=vd=v,+ 1d, e as desigualdades restantes não são 
afetadas. Portanto, o lema prossegue quando v é enfileirado. 


O corolário a seguir mostra que os valores d no momento em que os vértices são enfileirados são 
monotonicamente crescentes com o tempo. 


Corolário 22.4 


Suponha que os vértices v; e v; sejam enfileirados durante a execução de BFS e que v; seja enfileirado antes de v.. 
Então, v;.d < v,.d no momento em que v; é enfileirado. 


Prova Imediata pelo Lema 22.3 e pela propriedade de que cada vértice recebe um valor d finito no máximo uma vez 
durante a execução de BFS. 


Agora, podemos provar que a busca em largura encontra corretamente distâncias de caminhos mínimos. 


Teorema 22.5 (Correção da busca em largura) 


Seja G = (V, E) um grafo dirigido ou não dirigido, e suponha que BFS seja executado em G partindo de um dado 
vértice de fonte s E V Então, durante sua execução, BFS descobre todo vértice v &€ V que pode ser alcançado da 
fonte s e, no término, v.d = d(s, v) para todo v & V. Além disso, para qualquer vértice v 4 s que pode ser alcançado 
de s, um dos caminhos mínimos de s a v é um caminho mínimo de s a v.p seguido pela aresta (v.p, v). 


Prova Suponha, por contradição, que algum vértice receba um valor d não igual à distância de seu caminho mínimo. 
Seja v o vértice com d(s, v) mínimo que recebe tal valor d incorreto; é claro que v £ s. Pelo Lema 22.2, v.d> d(s, v) e, 
portanto, temos que v.d > d(s, v). O vértice v deve poder ser visitado de s porque, se não puder, d(s, v) = 00 > v.d. 


Seja u o vértice imediatamente anterior a v em um caminho mínimo de s a v, de modo que d(s, v) = d(s, u) + 1. Como 
d(s, u) < d(s, v), e emrazão do modo como escolhemos v, temos u.d = d(s, u). Reunindo essas propriedades, temos 


vd>o(sv)=osu)+l=ud+1. (22.1) 


Agora considere o momento em que BFS opta por desenfileirar o vértice u de O na linha 11. Nesse momento, o 
vértice v é branco, cinzento ou preto. Mostraremos que, em cada um desses casos, deduzimos uma contradição para a 
desigualdade (22.1). Se v é branco, então a linha 15 define v.d = u.d + 1, contradizendo a desigualdade (22.1). Se v é 
preto, então já foi removido da fila e, pelo Corolário 22.4, temos v.d < u.d, que novamente contradiz a desigualdade 
(22.1). Se v é cinzento, então ele foi pintado de cinzento ao ser desenfileirado algum vértice w que foi removido de O 
antes de u e para o qual v.d = w.d + 1. Porém, pelo Corolário 22.4, w.d < u.d e, então, temos vd = wd+ | <u.d + 
1, uma vez mais contradizendo a desigualdade (22.1). Assim, concluímos que v.d = d(s, v) para todo v &E V. Todos os 
vértices que podem ser visitados de s devem ser descobertos porque, se não fossem, teriam co = v.d > d(s, v). Para 
concluir a prova do teorema, observe que, se v.p =u, então v.d = u.d + 1. Assim, podemos obter um caminho mínimo 
de s a v tomando um caminho mínimo de s a v.p e depois percorrendo a aresta (v.p, v). 


Arvores em largura 


O procedimento BFS constrói uma árvore de busca em largura à medida que efetua a busca no grafo, como ilustra 
a Figura 22.3. A árvore corresponde aos atributos p. Em linguagem mais formal, para um grafo G = (V, E) com fonte s, 
definimos o subgrafo dos predecessores de G como Gp = (Vp, Ep), onde 


Vi=lveV:vmAnIm]U ts) 
e 
E=(vmov:veV — ls). 


O subgrafo dos predecessores Gp é uma árvore de busca em largura se Vp consistir nos vértices que podem ser 
visitados de s e, para todo v & Vp, existe um caminho simples único de s a v em Gp que também é um caminho mínimo 
de s a v em G. Uma árvore de busca em largura é, na verdade, uma árvore, já que é conexa e |Ep| = |Vp| — 1 (ver 
Teorema B.2). As arestas em Ep são denominadas arestas da árvore. 

O lema a seguir mostra que o subgrafo dos predecessores produzido pelo procedimento BFS é uma árvore de 
busca em largura. 


Lema 22.6 


Quando aplicado a um grafo dirigido ou não dirigido G = (V, E), o procedimento BFS constrói p de tal forma que o 
subgrafo predecessor Gp = (Vp, Ep) é uma busca árvore em largura. 


Prova A linha 16 de BFS define v.p = u se e somente se (u, v) E E e d(s, v) < 00 — isto é, se v pode ser visitado por 
s — e, assim, Vp consiste nos vértices em V que podem ser visitados por s. Visto que Gp forma uma árvore, pelo 
Teorema B.2 ela contém um caminho simples único de s a cada vértice em Vp. Aplicando o Teorema 22.5 por indução, 
concluímos que todo caminho desse tipo é um caminho mínimo em G. 


O seguinte procedimento imprime os vértices em um caminho mínimo de s a v, considerando que BFS já tenha 
calculado uma árvore em largura: 


PrINT-PATH(G,s,v) 


SS TR QONm 


ifu==s 

imprimir s 
else if v.7 = NIL 

imprimir “não existe nenhum caminho de” s “para v” 
else PRINT-PATH(G, s, v.7) 


imprimir v 


Esse procedimento é executado em tempo linear em relação ao número de vértices no caminho impresso, já que 
cada chamada recursiva é para um caminho um vértice mais curto. 


Exercícios 


22.2-1 


22.2-2 


22.2-3 


22.2-4 


22.2-5 


22.2-6 


22.2-7 


22.2-8 


22.2-9 


Mostre os valores de d e p que resultam da execução da busca em largura no grafo drrigido da Figura 22.2(a), 
usando o vértice 3 como fonte. 


Mostre os valores d e p que resultam da execução da busca em largura no grafo não dirigido da Figura 22.3, 
usando o vértice u como fonte. 


Mostre que usar um único bit para armazenar cada cor de vértice é suficiente demonstrando que o 
procedimento BFS produziria o mesmo resultado se a linha 18 fosse removida. 


Qual é o tempo de execução de BFS se representarmos o seu grafo de entrada por uma matriz de adjacências 
e modificarmos o algoritmo para tratar essa forma de entrada? 


Mostre que, em uma busca em largura, o valor u.d atribuído a um vértice u é independente da ordem na qual 
os vértices aparecem em cada lista de adjacências. Usando a Figura 22.3 como exemplo, mostre que a árvore 
de busca em largura calculada por BFS pode depender da ordenação dentro de listas de adjacências. 


Dê um exemplo de grafo dirigido G = (V, E), um vértice fonte s €E V e um conjunto de arestas de árvore Ep 
€ E tal que, para cada vértice v E V, o caminho simples único no grafo (V, Ep) de s a v é um caminho 
mínimo em G e que, ainda assim, o conjunto de arestas Ep não pode ser produzido executando-se BFS em G, 
não importando como os vértices estão ordenados em cada lista de adjacências. 


Há dois tipos de lutadores profissionais: os “bonzinhos” e os “vilões”. Entre qualquer par de lutadores 
profissionais pode ou não haver uma rivalidade. Suponha que tenhamos n lutadores profissionais e uma lista de 
r pares de lutadores entre os quais há rivalidade. Dê um algoritmo de tempo O(n + 7) que determine se é 
possível designar alguns dos lutadores como bonzinhos e os restantes como vilões, de modo que a rivalidade 
ocorra sempre entre um bonzinho e um vilão. Se for possível realizar tal designação, seu algoritmo deve 
produzia. 


* O diâmetro de uma árvore T = (V, E) é definido por maxu,yEV d(u, v) isto é, a maior de todas distâncias 
de caminhos mínimos na árvore. Dê um algoritmo eficiente para calcular o diâmetro de uma árvore e analise o 
tempo de execução de seu algoritmo. 


Seja G = (V, E) um grafo conexo não dirigido. Dê um algoritmo de tempo O(V + E) para calcular um 
caminho em G que percorra cada aresta em E exatamente uma vez em cada direção. Descreva como você 
pode encontrar a saída de um labirinto se dispuser de uma grande provisão de moedas de um centavo. 


22.3 Busca EM PROFUNDIDADE 


A estratégia seguida pela busca em profundidade é, como seu nome implica, buscar “mais fundo” no grafo, sempre 
que possível. A busca em profundidade explora arestas partindo do vértice v mais recentemente descoberto do qual 
ainda saem arestas inexploradas. Depois que todas as arestas de v foram exploradas, a busca “regressa pelo mesmo 
caminho” para explorar as arestas que partem do vértice do qual v foi descoberto. Esse processo continua até 
descobrirmos todos os vértices que podem ser visitados a partir do vértice fonte inicial. Se restarem quaisquer vértices 
não descobertos, a busca em profundidade seleciona um deles como fonte e repete a busca partindo dessa fonte. O 
algoritmo repete esse processo inteiro até descobrir todos os vértices.3 

Como ocorre na busca em largura, sempre que a busca em profundidade descobre um vértice v durante uma 
varredura da lista de adjacências de um vértice já descoberto u, registra esse evento definindo o atributo predecessor 
de v, v.p como u. Diferentemente da busca em largura, cujo subgrafo dos predecessores forma uma árvore, o subgrafo 
dos predecessores produzido por uma busca em profundidade pode ser composto por várias árvores porque a busca 
pode ser repetida partindo de várias fontes. Portanto, definimos o subgrafo dos predecessores de uma busca em 
profundidade de um modo ligeiramente diferente do da busca em largura: fazemos Gp = (V, Ep), onde 


E=l(omv:veVevr NI). 


O subgrafo dos predecessores de uma busca em profundidade forma uma floresta de busca em profundidade 
que abrange várias árvores de busca em profundidade. As arestas em Ep são arestas de árvore. 

Como na busca em largura, a busca em profundidade pinta os vértices durante a busca para indicar o estado de 
cada um. Cada vértice é inicialmente branco, pintado de cinzento quando descoberto na busca e pintado de preto 
quando terminado, isto é, quando sua lista de adjacências já foi totalmente examinada. Essa técnica garante que cada 
vértice acabe em exatamente uma árvore, de forma que essas árvores são disjuntas. 

Além de criar uma floresta, a busca em profundidade também identifica cada vértice com um carimbo de tempo. 
Cada vértice v tem dois carimbos de tempo: o primeiro carimbo de tempo v.d registra quando v é descoberto pela 
primeira vez (e pintado de cinzento), e o segundo carimbo de tempo v.f registra quando a busca termina de examinar a 
lista de adjacências de v (e pinta v de preto). Esses carimbos de tempo dão informações importantes sobre a estrutura 
do grafo e em geral são úteis para deduzir o comportamento da busca em profundidade. 

O procedimento DFS a seguir registra no atributo u.d o momento em que descobre o vértice u e registra no 
atributo u.f o momento em que liquida o vértice u. Esses carimbos de tempo são inteiros entre 1 e 2 |V], já que existe 
um evento de descoberta e um evento de término para cada um dos |V] vértices. Para todo vértice u, 


ud<uf. (22.2) 


O vértice u é Branco antes do tempo u.d, cinzento entre o tempo u.d e o tempo u.f e preto daí em diante. 
O pseudocódigo a seguir é o algoritmo básico de busca em profundidade. O grafo de entrada G pode ser dirigido 
ou não dirigido. A variável tempo é uma variável global que utilizamos para definir carimbos de tempo. 


DES(G) 
1 for cada vértice u € V[G] 

2 u.cor = BRANCO 

3 u.7 = NIL 

4 tempo = O 

5 for cada vértice u E V[G] 

6 if u.cor == BRANCO 

7 DFS-Visir(G, u) 


DFS-Visir(G, u) 


1 tempo = tempo + 1 [| vértice branco u acabou de ser descoberto 
2 u.d = tempo 

3 U.cor = CINZENTO 

4 for cada v € G.Adj[u] /[ explorar aresta (u, v) 

5 if v.cor == BRANCO 

6 vT=u 

7 DFS-Visir(G, v) 

8 u.cor = PRETO /l pintar u de preto; está terminado 

9 tempo = tempo + 1 


10 uf= tempo 


A Figura 22.4 ilustra o progresso de DFS no grafo mostrado na Figura 22.2. 

O procedimento DFS funciona da maneira descrita a seguir. As linhas 1-3 pintam todos os vértices de branco e 
inicializam seus atributos p como nm. A linha 4 reajusta o contador de tempo global As linhas 5-7 verificam cada 
vértice de V por vez e, quando um vértice branco é encontrado, elas o visitam usando DFS-Visrr. Toda vez que DFS- 
Visir(G, u) é chamado na linha 7, o vértice u se torna a raiz de uma nova árvore na floresta em profundidade. Quando 
DFS retorna, a todo vértice u foi atribuído um tempo de descoberta d[u] e um tempo de término f [u]. 


Figura 22.4 Progresso do algoritmo de busca em profundidade DFS em um grafo dirigido. À medida que as arestas são exploradas pelo 
algoritmo, elas aparecem sombreadas (se são arestas de árvores) ou tracejadas (caso contrário). Arestas que não são de árvores são 
identificadas por B, C ou F, conforme sejam arestas de retorno, cruzadas ou diretas. Os carimbos de tempo dentro dos vértices indicam 
tempo de descoberta/tempo de término. 


Em cada chamada DFS-Visn(G, u) o vértice u é inicialmente branco. A linha 1 incrementa a variável global tempo, 
a linha 2 registra o novo valor de tempo como o tempo de descoberta d[u] e a linha 3 pinta u de cinzento. As linhas 4— 
7 examinam cada vértice v adjacente a u e visitam recursivamente v se ele é branco. À medida que cada vértice v € 
Adjlu] é considerado na linha 4, dizemos que a aresta (u, v) é explorada pela busca em profundidade. Finalmente, 
depois que toda aresta que sai de u foi explorada, as linhas 8-10 pintam u de preto, incrementam tempo e registram o 
tempo de término em f[u]. 

Observe que os resultados da busca em profundidade podem depender da ordem em que a linha 5 de DFS 
examina os vértices e da ordem em que a linha 4 de DFS-Visrr visita os vizinhos de um vértice. Essas diferentes ordens 
de visitação tendem a não causar problemas na prática, já que em geral podemos usar eficientemente qualquer 
resultado da busca em profundidade e obter, em essência, resultados equivalentes. 

Qual é o tempo de execução de DFS? Os laços nas linhas 1-3 e nas linhas 5-7 de DFS demoram o tempo Q(V), 
excluindo o tempo para executar as chamadas a DFS-Visrr. Como fizemos para a busca em largura, usamos análise 
agregada. O procedimento DFS-vismr é chamado exatamente uma vez para cada vértice v & V, já que o vértice u no 
qual DFS-vism é invocado tem de ser branco e a primeira coisa que DFS-Vismr faz é pintar o vértice u de cinzento. 
Durante uma execução de DFS-vismr(Gv), o laço nas linhas 4-7 é executado |4dj[v]| vezes. Visto que 


SL Adifo]= (E), 


veV 
o custo total de executar as linhas 4-7 de DFS-Vism é Q(E). Portanto, o tempo de execução de DFS é Q(V + E). 


Propriedades da busca em profundidade 


A busca em profundidade produz informações valiosas sobre a estrutura de um grafo. Talvez a propriedade mais 
básica da busca em profundidade seja que o subgrafo predecessor Gp realmente forma uma floresta de árvores, já que 
a estrutura das árvores em profundidade reflete exatamente a estrutura de chamadas recursivas de DFS-Visrr. Isto é, u = 
v.p se e somente se DFS-Vism(G, v) foi chamado durante uma busca da lista de adjacências de u. Além disso, o vértice 
v é um descendente do vértice u na floresta em profundidade se e somente se v é descoberto durante o tempo em que 
u é cinzento. 

Uma outra propriedade importante da busca em profundidade é que os tempos de descoberta e término têm 
estrutura parentizada. Se representarmos a descoberta do vértice uy com um parêntese à esquerda “(u” e 
representarmos seu término por um parêntese à direita “u)”, então a história de descobertas e términos gera uma 
expressão bem formada, no sentido de que os parênteses estão adequadamente aninhados. Por exemplo, a busca em 
profundidade da Figura 22.5(a) corresponde à parentização mostrada na Figura 22.5(b). O teorema a seguir dá um 
outro modo de caracterizar a estrutura parentizada. 


Teorema 22.7 (Teorema dos parênteses) 


Em qualquer busca em profundidade de um grafo (dirigido ou não dirigido) G = (V, E), para quaisquer dois vértices u e 

v, exatamente uma das três condições seguintes é válida: 

* Osintervalos u.d, ufe v.d, v.f são completamente disjuntos, e nem u nem v é um descendente do outro na floresta 
em profundidade. 


ECW] 


(a) 


(b) 


(c) 
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Figura 22.5 Propriedades da busca em profundidade. (a) O resultado de uma busca em profundidade de um grafo dirigido. Os vértices 
são identificados por carimbos de tempo e os tipos de arestas são indicados como na Figura 22.4. (b) Os intervalos para o tempo de 
descoberta e o tempo de término de cada vértice correspondem à parentização mostrada. Cada retângulo compreende o intervalo dado 
pelos tempos de descoberta e término do vértice correspondente. Somente arestas de árvore são mostradas. Se dois intervalos se 
sobrepõem, então um deles está aninhado no outro, e o vértice correspondente ao menor intervalo é um descendente do vértice 
correspondente ao maior. (c) O grafo da parte (a) redesenhado comtodas as arestas de árvore e diretas descendo no interior de uma 
árvore em profundidade e todas as arestas de retorno subindo de um descendente para umancestral. 


* O intervalo u.d, u.f está contido inteiramente dentro do intervalo v.d, v.f, e u é um descendente de v em uma 
árvore em profundidade. 

* O intervalo v.d, v.f está contido inteiramente dentro do intervalo u.d, u.f, e v é um descendente de u em uma 
árvore em profundidade. 


Prova Começamos com o caso no qual u.d < v.d. Consideramos dois subcasos, conforme v.d < u.f ou não. O 
primeiro subcaso ocorre quando v.d < u.f, portanto v foi descoberto enquanto u ainda era cinzento, o que implica que 
v é um descendente de u. Além disso, como v foi descoberto mais recentemente que u, todas as suas arestas de saída 
são exploradas, e v é terminado antes de a busca retornar a u e terminá-lo. Portanto, nesse caso, o intervalo [v.d, v.f] 
está completamente contido no intervalo [u.d, u.f]. No outro subcaso, u.f< v.d e, pela desigualdade (22.7) u.d <uf< 
v.d < v.f; assim, os intervalos [u.d, u.f] e [v.d, v.f] são disjuntos. Como os intervalos são disjuntos, nenhum dos 
vértices foi descoberto enquanto o outro era cinzento e, portanto, nenhum dos vértices é descendente do outro. 

O caso em v.d < u.d é semelhante, com os papéis de u e v invertidos no argumento anterior. 


Corolário 22.8 (Aninhamento de intervalos de descendentes) 


O vértice v é um descendente adequado do vértice u na floresta em profundidade para um grafo (dirigido ou não 
dirigido) G se e somente seud<vd<vf<uf. 


Prova Imediata, pelo Teorema 22.7. 


O próximo teorema dá uma outra caracterização importante para quando um vértice é descendente de outro na 
floresta em profundidade. 


Teorema 22.9 (Teorema do caminho branco) 


Em uma floresta em profundidade de um grafo (dirigido ou não dirigido) G = (V, E), o vértice v é um descendente do 
vértice u se e somente se no momento u.d em que a busca descobre wu, há um caminho de u a v que consiste 
inteiramente em vértices brancos. 

Prova >: Se v =, então o caminho de u a v contém apenas o vértice u, que ainda é branco quando definimos o valor 
de u.d. Agora, suponha que v seja um descendente próprio de u na floresta em profundidade. Pelo Corolário 22.8, u.d 
<v.d, portanto, v é branco no tempo u.d. Visto que v pode ser qualquer descendente de u, todos os vértices em um 
caminho simples único de u a v na floresta em profundidade são brancos no tempo u.d. 

-: Suponha que haja um caminho de vértices brancos de u a v no tempo u.d, mas v não se torna um descendente de u 
na árvore em profundidade. Sem prejuízo da generalidade, considere que todo vértice exceto v ao longo do caminho se 
torne um descendente de w. (Caso contrário, seja v o vértice mais próximo de u ao longo do caminho que não se torna 
um descendente de u.) Seja w o predecessor de v no caminho, de modo que w seja um descendente de u (na verdade, 
w e u podem ser o mesmo vértice). Pelo Corolário 22.8, w.f < u.f. Como v tem de ser descoberto depois de u ser 
descoberto, mas antes de w ser terminado, temos u.d < vd< wf< u.f. Então, o Teorema 22.7 implica que o intervalo 
[v.d, v.f] está contido inteiramente no intervalo [u.d, u.f]. Pelo Corolário 22.8, v deve ser, afinal, um descendente de u. 


Classificação de arestas 


Uma outra propriedade interessante da busca em profundidade é que a busca pode ser usada para classificar as 
arestas do grafo de entrada G = (V, E). O tipo de cada aresta pode nos dar informações importantes sobre um grafo. 
Por exemplo, na próxima seção, veremos que um grafo dirigido é acíclico se e somente se uma busca em profundidade 
não produz nenhuma aresta “de retorno” (Lema 22.11). 

Podemos definir quatro tipos de arestas em termos da floresta em profundidade Gp produzida por uma busca em 
profundidade em G: 


1. Arestas de árvore são arestas na floresta em profundidade G,. A aresta (u, v) é uma aresta de árvore se v foi 
descoberto primeiro pela exploração da aresta (u, v). 

2. Arestas de retorno são as arestas (u, v) que conectam um vértice u a um ancestral v em uma árvore em 
profundidade. Consideramos laços, que podem ocorrer em grafos dirigidos, como arestas de retorno. 

4. Arestas diretas são as arestas (u, v) não de árvore que conectam um vértice u a um descendente v em uma 
árvore em profundidade. 

5. Arestas cruzadas são todas as outras arestas. Elas podem estar entre vértices na mesma árvore, desde que um 
vértice não seja um ancestral do outro, ou podem estar entre vértices em diferentes árvores de busca. 


Nas Figuras 22.4 e 22.5, rótulos de arestas indicam os tipos de arestas. A Figura 22.5(c) também mostra como 
redesenhar o grafo da Figura 22.5(a) de modo que todas as arestas de árvore e diretas dirijam-se para baixo em uma 
árvore em profundidade e que todas as arestas de retorno dirijam-se para cima. Podemos redesenhar qualquer grafo 
dessa maneira. 

O algoritmo DFS tem mformações suficientes para classificar algumas arestas à medida que as encontra. A ideia 
fundamental é que, quando exploramos uma aresta (u, v) pela primeira vez, a cor do vértice v nos diga algo sobre a 
aresta: 


1. Branco Indica uma aresta de árvore. 
2. ciNzENTO Indica uma aresta de retorno. 
3. preto Indica uma aresta direta ou cruzada. 


O primeiro caso é imediato pela especificação do algoritmo. Para o segundo caso, observe que os vértices 
cinzentos sempre formam uma cadeia linear de descendentes que corresponde à pilha de mvocações ativas de DFS- 
Visrr; O número de vértices cinzentos é uma unidade maior que a profundidade na floresta em profundidade do vértice 
mais recentemente descoberto. A exploração sempre prossegue do vértice cinzento mais profundo; assim, uma aresta 
que visita outro vértice cinzento alcançou um ancestral. O terceiro caso trata da possibilidade restante; o Exercício 
22.3-5 pede que você mostre que tal aresta (u, v) é uma aresta direta se u.d < v.d e uma aresta cruzada se u.d > v.d. 

Um grafo não dirigido pode acarretar alguma ambiguidade na classificação de arestas, já que (u, v) e (v, u) são na 
realidade a mesma aresta. Nesse caso, classificamos a aresta como do primeiro tipo na lista de classificação aplicável. 
De modo equivalente (veja o Exercício 22.3-6), classificamos a aresta conforme o que a busca encontrar primeiro: (u, 
v)ou(v,u). 

Agora, mostramos que arestas diretas e cruzadas nunca ocorrem em uma busca em profundidade de um grafo não 
dirigido. 


Teorema 22.10 


Em uma busca em profundidade de um grafo não drrigido G, toda aresta de G é uma aresta de árvore ou é uma aresta 
de retorno. 


Prova Seja (u, v) uma aresta arbitrária de G e suponha, sem perda de generalidade, que d[u] < d[v]. Então, a busca 
deve descobrir e terminar v antes de terminar u (enquanto u é cinzento), já que v está na lista de adjacências de u. Se, 


na primeira vez que a busca explorar a aresta (u, v), ela estiver na direção de u para v, então v é não descoberto 
(branco) até esse momento porque, do contrário, a busca já teria explorado essa aresta na direção de v para u. Assim, 
(u, v) se torna uma aresta de árvore. Se a busca explorar (u, v) primeiro na direção de v para u, então (u, v) é uma 
aresta de retorno, já que u ainda é cinzento no momento em que a aresta é explorada pela primeira vez. 


Veremos várias aplicações desses teoremas nas seções seguntes. 


Exercícios 


22.3-1 Faça um diagrama 3 por 3 com rótulos de linhas e colunas Branco, cinzento € preto. Em cada célula (i, j), 
indique se, em qualquer ponto durante uma busca em profundidade de um grafo dirigido, pode existir uma 
aresta de um vértice de cor i a um vértice de cor j. Para cada aresta possível, indique os tipos de aresta que 
ela pode ser. Faça um segundo diagrama para busca em profundidade de um grafo não dirigido. 


Figura 22.6 Um grafo dirigido para uso nos Exercícios 22.3-2 e 22.5-2. 


22.3-2 Mostre como a busca em profundidade funciona no grafo da Figura 22.6. Suponha que o laço for das linhas 
5-7 do procedimento DFS considera os vértices em ordem alfabética, e que cada lista de adjacências está em 
ordem alfabética. Mostre os tempos de descoberta e término para cada vértice e a classificação de cada 
aresta. 


22.3-3 Mostre a estrutura parentizada da busca em profundidade da Figura 22.4. 


22.3-4 Mostre que usar um único bit para armazenar a cor de cada vértice é suficiente, demonstrando que o 
procedimento DFS produziria o mesmo resultado se a linha 8 de DFS-visrr fosse removida. 


2.3-5 Mostre que a aresta (u, v) é 
a. uma aresta de árvore ou aresta direta se e somente seu.d< vd <vf<u.f. 
b. uma aresta de retorno se e somente se v.d<ud<uf<vf. 


c. uma aresta cruzada se e somente se v.d<vf<ud<uf. 


22.3-6 Mostre que, em um grafo não dirigido, classificar uma aresta (u, v) como uma aresta de árvore ou uma aresta 
de retorno conforme (u, v) ou (v, u) seja encontrado em primeiro lugar durante a busca em profundidade 
equivale a classificá-la de acordo com a ordenação dos quatro tipos no esquema de classificação. 


22.3-7 Reescreva o procedimento DFS utilizando uma pilha para eliminar recursão. 


22.3-8 Dê um contraexemplo para a seguinte hipótese: se um grafo dirigido G contém um caminho de u a v e se u.d 
< v.d em uma busca em profundidade de G, então v é um descendente de w na floresta em profundidade 
produzida. 


22.3-9 Dê um contraexemplo para a seguinte hipótese: se um grafo dirigido G contém um caminho de u a v, então 
qualquer busca em profundidade deve resultar em v.d < u.f. 


22.3-10 Modifique o pseudocódigo para busca em profundidade de modo que ele imprima todas as arestas no grafo 
dirigido G, juntamente com seu tipo. Mostre quais modificações, se houver, você precisa fazer se G for não 
dirigido. 


22.3-11 Explique como um vértice u de um grafo drrigido pode acabar em uma árvore em profundidade que contém 
apenas u, ainda que u tenha arestas de entrada, bem como de saída em G. 


22.3-12 Mostre que podemos usar uma busca em profundidade em um grafo não dirigido G para identificar as 
componentes conexas de G e que a floresta de busca em profundidade contém tantas árvores quantas são as 
componentes conexas de G. Mais precisamente, mostre como modificar a busca em profundidade de modo a 
atribuir a cada vértice v um rótulo inteiro cc[v] entre 1 e k, onde k é o número de componentes conexas de 
G, tal que u.cc = v.cc se e somente se u e v estiverem na mesma componente conexa. 


22.3-13 % Um grafo dirigido G = (V, E) é singularmente conexo se u v implica que G contém no máximo um 
caminho simples de u a v para todos os vértices u, v € V. Dê um algoritmo eficiente para determinar se um 
grafo dirigido é ou não isoladamente conexo. 


22.4 (ORDENAÇÃO TOPOLÓGICA 


Esta seção mostra como podemos usar busca em profundidade para executar uma ordenação topológica de um 
grafo acíclico dirigido, ou “gad”, como, às vezes, é chamado. Uma ordenação topológica de um gad G = (V, E) é 
uma ordenação linear de todos os seus vértices, tal que se G contém uma aresta (u, v), então u aparece antes de v na 
ordenação. (Se o grafo contém um ciclo, nenhuma ordenação topológica é possível) Podemos ver uma ordenação 
topológica de um grafo como uma ordenação de seus vértices ao longo de uma linha horizontal de modo tal que todas 
as arestas dirigidas vão da esquerda para a direita. Assim, a ordenação topológica é diferente do tipo habitual de 
“ordenação” estudado na Parte II. 

Muítas aplicações usam grafos acíclicos dirigidos para indicar precedências entre eventos. A Figura 22.7 mostra 
um exemplo que surge quando o professor Bumstead se veste pela manhã. O professor deve vestir certas peças de 
roupa antes de outras (por exemplo, meias antes de sapatos). Outros itens podem ser colocados em qualquer ordem 
(por exemplo, meias e calças). Uma aresta dirigida (u, v) no gad da Figura 22.7(a) indica que a peça de roupa u deve 
ser vestida antes da peça v. Portanto, uma ordenação topológica desse gad dá uma ordem para o processo de se vestir. 
A Figura 22.7(b) mostra o gad topologicamente ordenado como uma ordenação de vértices ao longo de uma linha 
horizontal tal que todas as arestas dirigidas vão da esquerda para a direita. 

O seguinte algoritmo simples ordena topologicamente um gad: 


TorpoLOGICAL-SORT(G) 


1 chamar DFS(G) para calcular o tempo de término v.f para cada vértice v 
2 à medida que cada vértice é terminado, inserir o vértice à frente de uma lista ligada 
3 return a lista ligada de vértices 


17/18 


13/14 


12/15 (Calças E" 


(a) 6/7 


(b) 


(relógio) 
17/18 1/16 12/15 13/14 9/10 1/8 6/7 2/5 3/4 

Figura 22.7 (a) O professor Bumstead ordena topologicamente sua roupa ao se vestir Cada aresta dirigida (u, v) significa que a peça de 

roupa u deve ser vestida antes da peça v. Os tempos de descoberta e término de uma busca em profundidade são mostrados ao lado de 

cada vértice. (b) O mesmo grafo mostrado com uma ordenação topológica. Seus vértices estão organizados da esquerda para a direita, 

em ordem decrescente de tempo de término. Observe que todas as arestas dirigidas vão da esquerda para a direita. 


A Figura 22.7(b) mostra como os vértices topologicamente ordenados aparecem na ordem inversa de seus tempos 
de término. 

Podemos executar uma ordenação topológica no tempo Q(V + E), já que a busca em profundidade demora o 
tempo Q(V + E) e que inserir cada um dos |V] vértices à frente da lista ligada leva o tempo O(1) . 

Demonstramos a correção desse algoritmo utilizando o seguinte lema findamental que caracteriza grafos acíclicos 
dirigidos. 


Lema 22.11 


Um grafo dirigido G é acíclico se e somente se uma busca em profundidade de G não produz nenhuma aresta de 
retorno. 

Prova =: Suponha que uma busca em profundidade produza uma aresta de retorno (u, v). Então o vértice v é um 
ancestral do vértice u na floresta em profundidade. Assim, G contém um caminho de v a u, e a aresta de retorno (u, v) 
completa um ciclo. 

-: Suponha que G contenha um ciclo c. Mostramos que uma busca em profundidade de G produz uma aresta de 
retorno. Seja v o primeiro vértice a ser descoberto em c e seja (u, v) a aresta precedente em c. No tempo v.d, os 
vértices de c formam um caminho de vértices brancos de v a u. Pelo teorema do caminho branco, o vértice u se torna 
um descendente de v na floresta em profundidade. Então, (u, v) é uma aresta de retorno. 


Teorema 22.12 


ToroLocicar-Sorr produz uma ordenação topológica de um grafo acíclico dirigido dado como sua entrada. 


Prova Suponha que DFS seja executado em determinado gad G = (V, E) para determinar tempos de término para seus 
vértices. É suficiente mostrar que, para qualquer par de vértices distintos u, v E V, se G contém uma aresta de u a v, 
então v.f < u.f. Considere qualquer aresta (u, v) explorada por DFS(G). Quando essa aresta é explorada, v não pode 
ser cinzento, já que nesse caso v seria um ancestral de u e (u, v) seria uma aresta de retorno, o que contradiz o Lema 
22.11. Portanto, v deve ser branco ou preto. Se v é branco, ele se torna um descendente de u e, assim, v.f<u.f. Se v 
é preto, ele já terminou, de modo que v.f já foi definido. Como ainda estamos explorando u, ainda temos de atribuir um 
carimbo de tempo a u.fe, tão logo o façamos, também teremos v.f< u.f. Assim, para qualquer aresta (u, v) no gad, 
temos v.f< u.f, O que prova o teorema. 


Figura 22.8 Um gad para ordenação topológica. 


Exercícios 


22.4-1 Mostre a ordenação de vértices produzida por TOPOLOGICAL-SORT quando executado no gad da Figura 
22.8, sob a hipótese do Exercício 22.3-2. 


22.4-2 Dê umalgoritmo de tempo linear que tome como entrada um grafo acíclico dirigido G = (V, E) e dois vértices 
s e t, e retorne o número de caminhos simples de s para t em G. Por exemplo, o grafo acíclico dirigido da 
Figura 22.8 contém exatamente quatro caminhos do vértice p para o vértice v: pov, poryv, posryv e psryv. 
(Seu algoritmo só precisa contar os caminhos, não listá-los.) 


22.4-3 Dê um algoritmo que determine se um dado grafo não dirigido G = (V, E) contém um ciclo simples. Esse 
algoritmo deve ser executado no tempo O(V), independentemente de [E]. 


22.4-4 Prove ou desprove: se um grafo dirigido G contém ciclos, então Tororocicar-Sorr(G) produz uma ordenação 
de vértices que minimiza o número de arestas “ruins” que são inconsistentes com a ordenação produzida. 


22.4-5 Outro modo de executar ordenação topológica em um grafo acíclico dirigido G = (V, E) é encontrar 
repetidamente um vértice de grau de entrada 0, imprimi-lo e removê-lo do grafo, bem como todas as suas 
arestas de saída. Explique como implementar essa ideia, de modo que seja executada no tempo O(V + E). O 
que acontecerá a esse algoritmo se G tiver ciclos? 


22.5 (CCoMPONENTES FORTEMENTE CONEXAS 


Agora, consideraremos uma aplicação clássica de busca em profundidade: a decomposição de um grafo dirigido 
em suas componentes fortemente conexas. Esta seção mostra como fazer isso usando duas buscas em profundidade. 
Muítos algoritmos que funcionam com grafos dirigidos começam por uma decomposição desse tipo. Após a 
decomposição do grafo em componentes fortemente conexas, tais algoritmos são executados separadamente em cada 
uma delas e combinados em soluções de acordo com a estrutura das conexões entre componentes. 

Lembre-se de que vimos no Apêndice B que uma componente fortemente conexa de um grafo dirigido G = (V, E) 
é um conjunto máximo de vértices C € V tal que, para todo par de vértices u ev em €, temos u vev u; isto é u 
pode ser alcançado a partir do vértice v e vice-versa. A Figura 22.9 mostra um exemplo. 

Nosso algoritmo para encontrar componentes fortemente conexas de um grafo G = (V, E) usa o transposto de G, 
que é definida no Exercício 22.1-3 como o grafo G, = (V, E,), onde E, = ((u, v) :(v,u) E E). Isto é, E, consiste 
nas arestas de G com suas direções invertidas. Dada uma representação por lista de adjacências de G, o tempo para 
criar G, é O(V + E). É interessante observar que G e G, têm exatamente as mesmas componentes fortemente conexas: 
u € v, podem ser alcançados um a partir do outro em G se e somente se puderem ser alcançados um a partir do outro 
em G,. A Figura 22.9(b) mostra o transposto do grafo na Figura 22.9(a), com as componentes fortemente conexas 
sombreadas. 

O algoritmo de tempo linear (isto é, de tempo Q(V + E)) apresentado a seguir calcula as componentes fortemente 
conexas de um grafo dirigido G = (V, E) usando duas buscas em profundidade, uma em G e uma em G... 


STRONGLY-CONNECTED-COMPONENTS(G). 


1 chamar DFS(G) para calcular tempos de término w.f para cada vértice u 

2 calcular G! 

3 chamar DFS(G") mas, no laço principal de DFS, considerar os vértices em ordem 
decrescente de u.f (como calculado na linha 1) 

4 dar saída aos vértices de cada árvore na floresta em profundidade formada na linha 3 


como uma componente fortemente conexa separada 


E[[[W[W[W[W[WWWW[W[W[][W[W[W[W[W][][][][][]]]]]]]]]J]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]]----+À 


a bh d 


(319) A16)-—=C1n10) 
(2115) 342 AS ED» 


e a g h 


(b) 


Cedo) 
(c) Cabe) 
CE) GE) 


Figura 22.9 (a) Um grafo dirigido G. Cada região sombreada é uma componente fortemente conexa de G. Cada vértice é identificado com 
seus tempos de descoberta e de término emuma busca em profundidade, e arestas de árvore são sombreadas. (b) O grafo G;, a 
transposta de G, na qual é mostrada a árvore em profundidade calculada na linha 3 de SrroncLy-ConneCreD-ComponEnTS e as arestas de 
árvore são sombreadas. Cada componente fortemente conexa corresponde a uma árvore de busca em profundidade. Os vértices b, c,g e 
h, que são sombreados em tom mais escuro, são as raízes das árvores de busca em profundidade produzidas pela busca em 
profundidade de G, . (c) O grafo acíclico de componentes G scc obtido pela contração de cada componente fortemente conexa de G, de 
modo que apenas um único vértice permaneça em cada componente. 


A ideia por trás desse algoritmo vem de uma propriedade fundamental do grafo de compo- nentes Gscc = (Vscc» 
Escc) que definimos a seguir. Suponha que G tenha componentes fortemente conexas €,, C,, ..., C,. O conjunto de 
vértices V sec É (vp V5 --.» V;J € contém um vértice v; para cada componente fortemente conexa C, de G. Há uma 
aresta (v;, V;) & Escc se G contém uma aresta dirigida (x, y) para algumx & C,e algum y E C,. Visto de outro modo, 
contraindo todas as arestas cujos vértices incidentes estão dentro da mesma componente fortemente conexa de G, o 
grafo resultante é Gçcc- A Figura 22.9(c) mostra o grafo de componentes do grafo na Figura 22.9(a). 

A propriedade fundamental é que o grafo de componentes é um gad, o que implica o lema a seguir. 


Lema 22.13 


Sejam C e C" componentes fortemente conexas distintas em um grafo dirigido G = (V, E), sejau,v E C, seja u”, v' 
E C'e suponha que G contenha um caminho u wu”. Então, G não pode conter também um caminho v” v. 


Prova Se G contém um caminho v” v, então contém caminhos u u" v'ev' v uemG. Assim, ue v' podem ser 
visitados um a partir do outro, o que contradiz a hipótese de que C e C"são componentes fortemente conexas distintas. 


Veremos que, considerando vértices na segunda busca em profundidade em ordem decrescente dos tempos de 
término que foram calculados na primeira busca em profundidade, estamos, em essência, visitando os vértices do grafo 
de componentes (cada um dos quais corresponde a uma componente fortemente conexa de G) em sequência ordenada 
topologicamente. 

Como o procedimento SrroncLy-Connecren-Components executa duas buscas em profundidade, há potencial para 
ambiguidade quando discutimos u.d ou u.f. Nesta seção, esses valores sempre se referem aos tempos de descoberta e 
término calculados pela primeira chamada de DFS, na linha 1. 

Estendemos a notação de tempos de descoberta e término a conjuntos de vértices. Se U € V, então definimos 
MU) = mmuev fudl ef(U) = maxvEU fu. f). Isto é, d(U) e HU) são o tempo de descoberta mais antigo e o 
tempo de término mais recente, respectivamente, de qualquer vértice em U. 

O lema a seguir e seu corolário dão uma propriedade fundamental que relaciona componentes fortemente conexas 
a tempos de término na primeira busca em profundidade. 


Lema 22.14 


Sejam C e C” componentes fortemente conexas distintas no grafo dirigido G = (V, E). Suponha que haja uma aresta (u, 
v)E E,ondeu E Cev e Cl”. Então, HO) >HC). 


Prova Consideramos dois casos, dependendo de qual componente fortemente conexa, C ou C”, tinha o primeiro 
vértice descoberto durante a busca em profundidade. 

Se d(C) < d(C”), seja x o primeiro vértice descoberto em C. No tempo x.d, todos os vértices 

em Ce C'são brancos. Nesse momento, G contém um caminho de x a cada vértice em € ao longo do qual há 
apenas vértices brancos. Como (u, v) E E, para qualquer vértice w & C”, também há em G um caminho de x a w no 
tempo x.d que contém somente vértices brancos: x u —» v | w. Pelo teorema do caminho branco, todos os vértices 
em Ce C'se tornam descendentes de x na árvore em profundidade. Pelo Corolário 22.8, x tem o tempo de término 
mais recente que qualquer de seus descendentes, portanto, x.f= MC)> HC). 

Se, em vez disso, tivermos d(C) > d(C”), seja y o primeiro vértice descoberto em C”. No tempo y.d, todos os 
vértices em C” são brancos e G contém um caminho de y a cada vértice em C” formado somente por vértices brancos. 
Pelo teorema do caminho branco, todos os vértices em C” se tornam descendentes de y na árvore em profundidade, e 
pelo Corolário 22.8, yf = f(C”. No tempo y.d, todos os vértices em C são brancos. Como existe uma aresta (u, v) de 
CaC”,o Lema 22.13 implica que não pode existir um caminho de C"a C. Consequentemente, nenhum vértice em C 
pode ser visitado por y. Portanto, no tempo y.f; todos os vértices em C ainda são brancos. Assim, para qualquer vértice 
w E €C, temos w.f> y.f, o que implica que MC) > HC. 

O corolário a seguir nos diz que cada aresta em G, entre diferentes componentes fortemente conexas vai de uma 
componente com um tempo de término anterior (na primeira busca em profundidade) a uma componente com um 
tempo de término posterior. 


Corolário 22.15 


Sejam C e C” componentes fortemente conexas distintas no grafo dirigido G = (V, E). Suponha que haja uma aresta (u, 
v)e E,ondeu e CevecC” Então, HO) <HC). 


Prova Como (u, v) E E,, temos (v, u) E E. Visto que as componentes fortemente conexas de G e G, são as 
mesmas, o Lema 22.14 implica que MC) < HC”. 


O Corolário 22.15 nos dá a chave para entender por que o algoritmo de componentes fortemente conexas 
funciona. Vamos examinar o que acontece quando executamos a segunda busca em profundidade, que está em G,. 
Começamos com a componente fortemente conexa € cujo tempo de término f(C) é máximo. A busca começa em 
algum vértice x E Ce visita todos os vértices em €. Pelo Corolário 22.15, G, não contém nenhuma aresta de C a 
qualquer outra componente fortemente conexa e, por isso, a busca iniciada em x não visitará vértices em qualquer outra 
componente. Assim, a árvore com raiz em x contém exatamente os vértices de C. Agora que as visitas a todos os 
vértices em € foram concluídas, a busca na linha 3 seleciona como raiz um vértice de alguma outra componente 
fortemente conexa C” cujo tempo de término f(C”) é máximo em relação a todas as outras componentes, exceto C. 
Mais uma vez, a busca visitará todos os vértices em C” mas, pelo Corolário 22.15, as únicas arestas em G, que vão de 
C" a qualquer outra componente devem ir até €, que já visitamos. Em geral, quando a busca em profundidade de G, na 
linha 3 visita qualquer componente fortemente conexa, quaisquer arestas que saem dessa componente devem ir até 
componentes que a busca já visitou. Então, cada árvore de busca em profundidade será exatamente uma componente 
fortemente conexa. O teorema a seguir formaliza esse argumento. 


Teorema 22.16 


O procedimento SrroncLy-ConnecreD-Components calcula corretamente as componentes fortemente conexas do grafo 
dirigido dado como sua entrada. 


Prova Mostramos por indução em relação ao número de árvores de busca encontradas na busca em profundidade de 
G, na linha 3 que os vértices de cada árvore formam uma componente fortemente conexa. A hipótese de indução é que 
as primeiras k árvores produzidas na linha 3 são componentes fortemente conexas. A base para a indução, quando k = 
O, é trivial. 

No passo de indução, supomos que cada uma das k primeiras árvores em profundidade produzidas na linha 3 é 
uma componente fortemente conexa, e consideramos a (k + 1)-ésima árvore produzida. Seja o vértice u a raiz dessa 
árvore, e suponhamos que u esteja na componente fortemente conexa C. Como resultado do modo como escolhemos 
raízes na busca em profundidade na linha 3, u.f= HC) > HC” para qualquer componente fortemente conexa C” exceto 
C€ que ainda tenha de ser visitada. Pela hipótese de indução, no momento em que a busca visita u, todos os outros 
vértices de C são brancos. Então, pelo teorema do caminho branco, todos os outros vértices de C são descendentes de 
u nessa árvore em profundidade. Além disso, pela hipótese de indução e pelo Corolário 22.15, quaisquer arestas em 
G+ que saem de € devem ir até componentes fortemente conexas que já foram visitadas. Assim, nenhum vértice em 
uma componente fortemente conexa exceto C será um descendente de w durante a busca em profundidade de G,,. 
Portanto, os vértices da árvore de busca em profundidade em G,, enraizada em u formam exatamente uma componente 
fortemente conexa, o que conclui o passo de indução e a prova. 


Apresentamos agora um outro modo de ver como funciona a segunda busca em profundidade. Considere o grafo 
de componentes (G. )SCC de G.,. Se mapearmos cada componente fortemente conexa visitada na segunda busca em 
profundidade até um vértice de (G. )SCC, a segunda busca em profundidade visita os vértices de (G.,)SCC na ordem 
inversa de uma ordem topológica. Se invertermos as arestas de (G. )SCC, obteremos o grafo ((G. JSCC)T. Como 
((G)SCC)T = (G,)SCC (veja o Exercício 22.5-4), a segunda busca em profundidade visita os vértices de Gscc em ordem 
topológica. 


Exercícios 


22.5-1 


22.5-2 


22.5-3 


22.5-4 


22.5-5 


22.5-6 


22.5-7 


Como o número de componentes fortemente conexas de um grafo pode mudar se uma nova aresta for 
adicionada? 


Mostre como o procedimento SrronoLy-ConnecreD-Components funciona no grafo da Figura 22.6. 
Especificamente, mostre os tempos de término calculados na linha 1 e a floresta produzida na linha 3. Suponha 
que o laço das linhas 5-7 de DFS toma os vértices em ordem alfabética e que as listas de adjacências estão 
em ordem alfabética. 


O professor Bacon afirma que o algoritmo para componentes fortemente conexas seria mais simples se usasse 
o grafo original (em lugar da transposta) na segunda busca em profundidade e varresse os vértices na ordem 
crescente de tempos de término. Esse algoritmo mais simples sempre produzirá resultados corretos? 


Prove que, para qualquer grafo dirigido G, temos ((G. )SCC)T = (G. )SCC. Isto é, o transposto do grafo de 
componentes de G,, é igual ao grafo de componentes de G. 


Dê um algoritmo de tempo O(V + E) para calcular o grafo de componentes de um grafo dirigido G = (V, E). 
Certifique-se de que haja no máximo uma aresta entre dois vértices no grafo de componentes que o seu 
algoritmo produz. 


Dado um grafo dirigido G = (V, E), explique como criar um outro grafo G' = (V, E” tal que (a) G "tenha as 
mesmas componentes fortemente conexas que G, (b) G "tenha o mesmo grafo de componentes que G, e (c) 
E"seja o menor possível. Descreva um algoritmo rápido para calcular G”. 


Um grafo dirigido G = (V, E) é semiconexo se, para todos os pares de vértices u,v € V, temos u v ouv u. 
Dê um algoritmo eficiente para determinar se G é ou não semiconexo. Prove que o algoritmo é correto e 
analise seu tempo de execução. 


Problemas 


22-1 


Classificação de arestas por busca em largura 


Uma floresta de busca em profundidade classifica as arestas de um grafo em arestas de árvore, de retorno, 
diretas e cruzadas. Uma árvore de busca em largura também pode ser usada para classificar as arestas que 
podem ser alcançadas a partir da fonte da busca nas mesmas quatro categorias. 


a. Prove que, em uma busca em largura de um grafo não dirigido, as seguintes propriedades são válidas: 
1. Não há nenhuma aresta de retorno e nenhuma aresta direta. 

2. Para cada aresta de árvore (u, v), temos vd = u.d+1. 

3. Para cada aresta cruzada (u, v), temos v.d= ud ouv.d=ud+1. 

b. Prove que, em uma busca em largura de um grafo dirigido, as seguintes propriedades são válidas: 

1. Não há arestas diretas. 

2. Para cada aresta de árvore (u, v), temos v.d=u.d+1. 

3. Para cada aresta cruzada (u, v), temos v.d<ud+ 1. 


4. Para cada aresta de retorno (u, v), temos O< v.d<u.d. 


22-2 Pontos de articulação, pontes e componentes biconectadas 


Seja G = (V, E) um grafo conexo não dirigido. Um ponto de articulação de G é um vértice cuja remoção 
desconecta G. Uma ponte de G é uma aresta cuja remoção desconecta G. Uma componente biconexa de 
G é um conjunto máximo de arestas tal que quaisquer duas arestas no conjunto encontram-se em um ciclo 
simples comum. A Figura 22.10 ilustra essas definições. Podemos determinar pontos de articulação, pontes e 
componentes biconexas utilizando busca em profundidade. Seja Gp = (V, Ep) uma árvore de busca em 
profundidade de G. 


a. Prove que a raiz de G,é um ponto de articulação de G se e somente se ele tem no mínimo dois filhos em 
Go. 


Figura 22.10 Os pontos de articulação, pontes e componentes biconexas de um grafo conexo não dirigido para uso no Problema 22-2. 
Os pontos de articulação são os vértices sombreados em tom mais escuro, as pontes são as arestas sombreadas em tommais escuro e 
as componentes biconexas são as arestas nas regiões sombreadas, nas quais aparece a numeração bcc. 


b. Seja v um vértice não de raiz de G,. Prove que v é um ponto de articulação de G se e somente se v tem 
um filho s tal que não há nenhuma aresta de retorno de s ou de qualquer descendente de s até um 
ancestral próprio de v. 


c. Seja 


v.d, 
w.d : (u,iw) é uma aresta de retorno para algum descendente u de v. 


v.inferior = min 
Mostre como calcular v.inferior para todos os vértices v € Vno tempo O(E). 
d. Mostre como calcular todos os pontos de articulação no tempo O(E). 
e. Prove que uma aresta de G é uma ponte se e somente se ela não estiver em nenhum ciclo simples de G. 
Mostre como calcular todas as pontes de G no tempo O(E). 


f 
g. Prove que as componentes biconexas de G particionam as arestas não pontes de G. 
h 


Dê um algoritmo de tempo O(E) para rotular cada aresta e de G com um nteiro positivo e.bcc tal que 
e.bcc = e”.bcc se e somente se e e e” estão na mesma componente biconexa. 


22-3 Percurso de Euler 


Um percurso de Euler de um grafo fortemente conexo dirigido G = (V, E) é um ciclo que percorre cada 
aresta de G exatamente uma vez, embora possa visitar um vértice mais de uma vez. 


a. Mostre que G tem um percurso de Euler se e somente se grau de entrada(v) = grau de saída(v) para 
cada vértice v E V. 


b. Descreva um algoritmo de tempo O(E) para encontrar um percurso de Euler de G se houver algum. 
(Sugestão: Intercale ciclos disjuntos de arestas.) 


22-4 Acessibilidade 


Seja G = (V, E) um grafo dirigido no qual cada vértice u & V é rotulado com um inteiro único L(u) do 
conjunto (1, 2, ..., |V]+. Para cada vértice u E V, seja R(u)= tv E V:u v! o conjunto de vértices que 
podem ser alcançados a partir de u. Defina min(1) como o vértice em R(u) cujo rótulo é mínimo, isto é, min(1) 
é o vértice v tal que L(v) = minfL(w) :w E R(u)!. Dê um algoritmo de tempo O(V + E) que calcule min(u) 
para todos os vértices u E V. 


NorTas DO CAPÍTULO 


Even [103] e Tarjan [330] são excelentes referências para algoritmos em grafos. 

A busca em largura foi descoberta por Moore [260] no contexto de caminhos de localização em labrrintos. Lee 
[226] descobriu independentemente o mesmo algoritmo no contexto de roteamento de fios em placas de circuitos. 

Hopcroft e Tarjan [178] defenderam o uso da representação por listas de adjacências em vez da representação 
por matriz de adjacências, no caso de grafos esparsos, e foram os primeiros a reconhecer a importância algorítmica da 
busca em profundidade. A busca em profundidade tem sido amplamente utilizada desde o final da década de 1950, 
especialmente em programas de inteligência artificial. 

Tarjan [327] apresentou um algoritmo de tempo linear para encontrar componentes fortemente conexas. O 
algoritmo para componentes fortemente conexas na Seção 22.5 foi adaptado de Aho, Hopcroft e Ullman [6], que o 
creditam a S. R. Kosaraju (não publicado) e M. Sharrr [314]. Gabow [119] também desenvolveu um algoritmo para 
componentes fortemente conexas baseado na contração de ciclos, e utiliza duas pilhas para executá-lo em tempo linear. 
Knuth [209] foi o primeiro a apresentar um algoritmo de tempo linear para ordenação topológica. 


'Distíguimos entre vértices cinzentos e pretos porque isso nos ajuda a entender como a busca em largura funciona. Na verdade, como o 
Exercício 22.2-3 mostra, obteríamos o mesmo resultado mesmo que não distinguíssemos entre vértices cinzentos e pretos. 

ZNos Capítulos 24 e 25, generalizaremos nosso estudo de caminhos mínimos para grafos ponderados, nos quais cada aresta tem um 
valor de peso reale o peso de um caminho é a soma dos pesos de suas arestas constituintes. Os grafos considerados neste capítulo são 
grafos não ponderados ou, o que é equivalente, todas as arestas têm peso unitário. 

3 Pode parecer arbitrário que a busca em largura se limite apenas a uma fonte, enquanto a busca em profundidade pode executar busca 
partindo de várias fontes. Embora, em termos conceituais, a busca em largura poderia se originar em várias fontes e a busca em 
profundidade poderia ser limitada a uma fonte, nossa abordagem reflete o modo como os resultados dessas buscas são normalmente 
usados. Em geral, a busca em largura serve para encontrar distâncias de caminhos mínimos (e o subgrafo predecessor associado) que 
partem de determinada fonte. A busca em profundidade muitas vezes é uma sub-rotina em um outro algoritmo, como veremos mais 
adiante neste capítulo. 


ÁRVORES GERADORAS MÍNIMAS 


Em projeto de circuitos eletrônicos, muitas vezes, é necessário que os pinos de vários componentes se tornem 
eletricamente equivalentes, o que é conseguido ligando-os uns aos outros. Para interconectar um conjunto de n pinos, 
podemos usar um arranjo de n - 1 fios, cada qual conectando dois pinos. De todos os arranjos possíveis, aquele que 
utiliza a mínima quantidade de fio é normalmente o mais desejável. 

Podemos modelar esse problema de fiação com um grafo conexo não dirigido G = (V, E), onde V é o conjunto de 
pinos, E é o conjunto de interconexões possíveis entre pares de pinos e, para cada aresta (u, v) E E, temos um peso 
w(u, v) que especifica o custo (a quantidade necessária de fio) para conectar u e v. Então, desejamos encontrar um 
subconjunto acíclico 7 € E que conecte todos os vértices e cujo peso total 


w(T) = po w(u,V) 


(u,v)ET 


é minimizado. Visto que T' é acíclico e conecta todos os vértices, deve formar uma árvore, que denominaremos árvore 
geradora, já que “gera” o grafo G. O problema de determinar a árvore T é denominado problema da árvore 
geradora minimal. A Figura 23.1 mostra um exemplo de grafo conexo e uma árvore geradora mínima. 

Neste capítulo, examinaremos dois algoritmos para resolver o problema da árvore geradora mínima: o algoritmo de 
Kruskal e o algoritmo de Prim. É fácil fazer com que cada um deles seja executado no tempo O(E lg V) utilizando heaps 
binários comuns. Se usarmos heaps de Fibonacci, o algoritmo de Prim é executado no tempo O(E + V lg V), o que 
representa uma melhoria em relação à implementação com heaps binários se |V| é muito menor que |]. 


Figura 23.1 Uma árvore geradora mínima para um grafo conexo. Os pesos nas arestas são mostrados, e as arestas em uma árvore 
geradora mínima estão sombreadas. O peso total da árvore mostrada é 37. Essa árvore geradora mínima não é única: se removermos a 
aresta (b, c) e a substituirmos pela aresta (a, h) produziremos outra árvore geradora compeso 37. 


Os dois algoritmos são algoritmos gulosos, como descreve o Capítulo 16. Cada etapa de um algoritmo guloso 
deve fazer uma entre várias opções possíveis. A estratégia gulosa faz a escolha que é a melhor no momento. Em geral, 
tal estratégia não garante que sempre encontrará soluções globalmente ótimas para problemas. Porém, no caso do 
problema da árvore geradora mínima, podemos provar que certas estratégias gulosas realmente produzem uma árvore 
geradora com peso mínimo. Embora este capítulo possa ser lido independentemente do Capítulo 16, os métodos 
gulosos apresentados aqui são uma aplicação clássica das noções teóricas introduzidas naquele capítulo. 

A Seção 23.1 introduz um método “genérico” de árvore geradora mínima que produz uma árvore geradora 
adicionando uma aresta por vez. A Seção 23.2 dá dois algoritmos que implementam o método genérico. O primeiro 
algoritmo, desenvolvido por Kruskal, é semelhante ao algoritmo de componentes conexas da Seção 21.1. O segundo, 
desenvolvido por Prim, é semelhante ao algoritmo de caminhos mínimos de Dijkstra (Seção 24.3). 

Como uma árvore é um tipo de grafo, se quisermos ser precisos temos de definir uma árvore em termos não 
apenas de suas arestas, mas também de seus vértices. Embora este capítulo focalize árvores em termos de suas arestas, 
continuaremos entendendo que os vértices de uma árvore T são aqueles nos quais incide alguma aresta de T. 


23.1 DESENVOLVENDO UMA ÁRVORE GERADORA MÍNIMA 


Suponha que temos um grafo conexo não dirigido G = (V, E) com uma função peso w : E — e desejamos 
encontrar uma árvore geradora mínima para G. Os dois algoritmos que consideramos neste capítulo utilizam uma 
abordagem gulosa para o problema, embora os modos como aplicam essa abordagem sejam diferentes. 

Essa estratégia gulosa é representada pelo método genérico apresentado a seguir, que desenvolve a árvore 
geradora mínima uma aresta por vez. O método genérico administra um conjunto de arestas 4, mantendo o seguinte 
invariante de laço: 


Antes de cada iteração, 4 é um subconjunto de alguma árvore geradora mínima. 


Em cada etapa, determinamos uma aresta (u, v) que pode ser adicionada a 4 sem violar esse invariante, no sentido 
de que 4 U ((u, v)) também é um subconjunto de uma árvore geradora mínima. Denominamos tal aresta aresta 
segura para A, já que ela pode ser adicionada com segurança a 4 e, ao mesmo tempo, manter o invariante. 


GENERIC-MST(G, ww) 


1 A=y 

2 while 4 não formar uma árvore geradora 

3 encontre uma aresta (u, v) que seja segura para A 
4 A=AUÍ(u,v)) 

3 return A 


Usamos o invariante de laço da seguinte maneira: 
Inicialização: Depois da linha 1, o conjunto A satisfaz trivialmente o invariante de laço. 
Manutenção: O laço nas linhas 2-4 mantém o invariante, adicionando apenas arestas seguras. 


Término: 4 está contido em uma árvore geradora mínima e uma árvore geradora, portanto, o conjunto 4 
devolvido na linha 5 deve ser uma árvore geradora mínima. 


É claro que a parte complicada é encontrar uma aresta segura na linha 3. Deve existir uma, já que, quando a linha 3 
é executada, o invariante estabelece que existe uma árvore geradora T'talque 4 € T. Dentro do corpo do laço while, 
A deve ser um subconjunto próprio de T, e portanto deve haver uma aresta (u, v) E Ttalque (u, v)& 4 e (u, v) é 
segura para 4. 


No restante desta seção, daremos uma regra (Teorema 23.1) para reconhecer arestas seguras. A próxima seção 
descreve dois algoritmos que usam essa regra para encontrar arestas seguras eficientemente. 

Primeiro, precisamos de algumas definições. Um corte (S, V - S) de um grafo não dirigido G = (V, E) é uma 
partição de V. A Figura 23.2 ilustra essa noção. Dizemos que uma aresta (u, v) E E cruza o corte (S, V- S) se um de 
seus pontos extremos está em S e o outro está em V - S. Dizemos que um corte respeita um conjunto 4 de arestas se 
nenhuma aresta em 4 cruza o corte. Uma aresta é uma aresta leve que cruza um corte se seu peso é o mínimo de 
qualquer aresta que cruza o corte. Observe que pode haver mais de uma aresta leve que cruza um corte no caso de 
empates. De modo mais geral, dizemos que uma aresta é uma aresta leve que satisfaz uma dada propriedade se seu 
peso é o mínimo de qualquer aresta que satisfaz a propriedade. 

Nossa regra para reconhecer arestas seguras é dada pelo seguinte teorema. 


Teorema 23.1 


Seja G = (V, E) um grafo conexo não dirigido com uma função peso de valores reais w definida em E. Seja 4 um 
subconjunto de E que está incluído em alguma árvore geradora mínima para G, seja (S, V - S) qualquer corte de G que 
respeita 4 e seja (u, v) uma aresta leve que cruza (S, V - S). Então, a aresta (u, v) é segura para 4. 


Prova Seja Tuma árvore geradora mínima que inclui 4, e suponha que 7 não contenha a aresta leve (u, v) já que, se 
contiver, terminamos. Construiremos uma outra árvore geradora mínima T"que inclui 4 U f(u, v): usando uma técnica 
de recortar e colar, mostrando assim que (u, v) é uma aresta segura para 4. 

A aresta (u, v) forma um ciclo com as arestas no caminho simples p de u a v em 7, como ilustra a Figura 23.3. Visto 
que u e v estão em lados opostos do corte (S, V - 9), no mínimo uma aresta em T' se encontra no caminho simples p e 
também cruza o corte. Seja (x, y) qualquer dessas arestas. A aresta (x, 7) não está em 4 porque o corte respeita 4. 
Como (x, ) está no único caminho simples de u a v em 7, remover (x, y) separa 7” em duas componentes. A adição de 
(u, v) reconecta as duas componentes e forma uma nova árvore geradora T'=T- (x,y) U ((u, v):. 


Figura 23.2 Duas maneiras de visualizar um corte (S, V- S ) do grafo da Figura 23.1. (a) Vértices pretos estão no conjunto S e vértices 
brancos estão em V- S. As arestas que cruzamo corte são as que conectam vértices brancos com vértices pretos. A aresta (d, c)é a 
única aresta leve que cruza o corte. Um subconjunto 4 das arestas está sombreado; observe que o corte (S, V- S) respeita 4, já que 
nenhuma aresta de 4 cruza o corte. (b) O mesmo grafo comos vértices no conjunto S à esquerda e os vértices no conjunto V- Sà 
direita. Uma aresta cruza o corte se ela conecta o vértice à esquerda com um vértice à direita. 


Figura 23.3 A prova do Teorema 23.1. Os vértices pretos estão em S e os vértices brancos estão em V- S. As arestas na árvore geradora 
mínima T são mostradas, mas as arestas no grafo G não são. As arestas em 4 são sombreadas, e (u, v) é uma aresta leve que cruza o 
corte (S, V- S). A aresta (x,y ) é uma aresta no caminho simples único p de u a v em T. Para formar uma árvore geradora mínima Tº que 
contém (u, v ), remova a aresta (x, y ) de Te adicione a aresta (u, v ). 


Em seguida, mostramos que 7” é uma árvore geradora mínima. Visto que (u, v) é uma aresta leve que cruza (S, V - 
S) e (x, y) também cruza esse corte, w(u, v) < w(x, y). Então, 


w(T”) w(T) — w(x, y) + w(u, v) 


w(T) . 


IA II 


Porém, T é uma árvore geradora mínima, de modo que w(7) < w(T”); assim, Tº também deve ser uma árvore geradora 
Resta mostrar que (u, v) é realmente uma aresta segura para 4. Temos 4 € T',jáque 4 € Te(x,y) É 4; assim, 
AU fu, v)! € T'. Consequentemente, como Té uma árvore geradora mínima, (u, v) é segura para 4. 


O Teorema 23.1 nos permite compreender melhor o funcionamento do método Generic-MST no grafo conexo G = 
(V, E). À medida que o algoritmo progride, o conjunto 4 é sempre acíclico; caso contrário, uma árvore geradora 
mínima incluindo 4 conteria um ciclo, o que é uma contradição. Em qualquer ponto na execução, o grafo G4 = (V, 4) é 
uma floresta, e cada uma das componentes conexas de G, é uma árvore. (Algumas das árvores podem conter apenas 
um vértice, como ocorre, por exemplo, quando o método começa: 4 é vazio e a floresta contém |V] árvores, uma para 


cada vértice.) Além disso, qualquer aresta segura (u, v) para 4 conecta componentes distintos de G,, já que 4 U ((u, 
v); deve ser acíclico. 

O laço while nas linhas 2-4 de Generic-MST é executado |V] - 1 vezes porque encontra uma das |V| - 1 arestas de 
uma árvore geradora mínima em cada iteração. No início, quando 4 = 0/, há |V] árvores em G,, e cada iteração reduz 
esse número em uma unidade. Quando a floresta contém apenas uma única árvore, o método termina. 

Os dois algoritmos na Seção 23.2 utilizam o corolário do Teorema 23.1 apresentado a seguir. 


Corolário 23.2 


Seja G = (V, E) um grafo conexo não dirigido com uma finção peso de valor real w definida em E. Seja 4 um 
subconjunto de E que está incluído em alguma árvore geradora mínima para G, e seja C = (Vc, Ec) uma componente 
conexa (árvore) na floresta G, = (V, 4). Se (u, v) é uma aresta leve que conecta € a alguma outra componente em G, 
então (u, v) é segura para 4. 


Prova O corte (Vc, V - Vc) respeita 4, e (u, v) é então uma aresta leve para esse corte. Portanto, (u, v) é segura para 
4. 


Exercícios 


23.1-1 Seja (u, v) uma aresta de peso mínimo em um grafo conexo G. Mostre que (u, v) pertence a alguma árvore 
geradora mínima de G. 


23.1-2 O professor Sabatier propõe a recíproca do Teorema 23.1 apresentada a seguir. Seja G = (V, E) um grafo 
conexo não dirigido com uma função peso de valor real w definida em E. Seja 4 um subconjunto de E que 
está incluído em alguma árvore geradora mínima para G, seja (S, V - S) qualquer corte de G que respeita 4, e 
seja (u, v) uma aresta segura para 4 que cruza (S, V - S). Então, (u, v) é uma aresta leve para o corte. 
Mostre que a hipótese do professor é incorreta, dando um contraexemplo. 


23.1-3 Mostre que, se uma aresta (u, v) está contida em alguma árvore geradora mínima, então ela é uma aresta leve 
que cruza algum corte do grafo. 


23.1-4 Dê um exemplo simples de um grafo conexo tal que no conjunto de arestas ((u, v) : há um corte (S, V - S) tal 
que (u, v) uma aresta leve que cruza (S, V - S)y não forma uma árvore geradora mínima. 


23.1-5 Seja e uma aresta de peso máximo em algum ciclo do grafo conexo G = (V, E). Prove que existe uma árvore 
geradora mínima de G' = (V, E - fe!) que também é uma árvore geradora mínima de G. Isto é, existe uma 
árvore geradora mínima de G que não inclui e. 


23.1-6 Mostre que um grafo tem uma árvore geradora mínima única se, para todo corte do grafo, existe uma aresta 
leve única que cruza o corte. Mostre que a recíproca não é verdadeira, dando um contraexemplo. 


23.1-7 Mostre que, se todos os pesos de arestas de um grafo são positivos, qualquer subconjunto de arestas que 
conecte todos os vértices e tenha peso total mínimo deve ser uma árvore. Dê um exemplo para mostrar que a 
mesma conclusão não decorre se permitimos que alguns pesos sejam não positivos. 


23.1-8 Seja T uma árvore geradora mínima de um grafo G e seja L a lista ordenada dos pesos das arestas de 7. 
Mostre que, para qualquer outra árvore geradora mínima T"de G, a lista L é também a lista ordenada de 
pesos de arestas de T”. 


23.1-9 Seja T uma árvore geradora mínima de um grafo G = (V, E) e seja V'um subconjunto de V. Seja T' o 
subgrafo de T induzido por V'e seja G "o subgrafo de G induzido por V”. Mostre que, se 7" é conexo, então 
T"é uma árvore geradora mínima de G”. 


23.1-10 Dado um grafo G e uma árvore geradora mínima T, suponha que diminuímos o peso de uma das arestas em 7. 
Mostre que T ainda é uma árvore geradora mínima para G. Mais formalmente, seja 7 uma árvore geradora 
mínima para G com pesos de arestas dados pela função peso w. Escolha uma aresta (x,y) € T e um número 
positivo k, e defina a função peso w” por 


tdi w(u,v) se (u,v)= (x,y), 
wl(x,y)—k se(u,v)=(x,y). 


Mostre que 7 é uma árvore geradora mínima para G com pesos de arestas dados por w”. 


23.1-11 X Dado um grafo G e uma árvore geradora mínima 7, suponha que diminuímos o peso de uma das arestas 
não presentes em 7. Dê um algoritmo para encontrar a árvore geradora mínima no grafo modificado. 


23.2 ArcoritrMos DE KRUSKAL E PRIM 


Os dois algoritmos de árvore geradora mínima descritos nesta seção aperfeiçoam o método genérico. Cada um 
deles utiliza uma regra específica para determinar uma aresta segura na linha 3 de Generic-MST. No algoritmo de 
Kruskal, o conjunto 4 é uma floresta cujos vértices são todos os vértices do grafo dado. A aresta segura adicionada a 
A é sempre uma aresta de peso mínimo no grafo que conecta duas componentes distintas. No algoritmo de Prim, o 
conjunto 4 forma uma árvore única. A aresta segura adicionada a 4 é sempre uma aresta de peso mínimo que conecta a 
árvore a um vértice não presente na árvore. 


Algoritmo de Kruskal 


O algoritmo de Kruskal acha uma aresta segura para adicionar à floresta que está sendo desenvolvida 
encontrando, entre todas as arestas que conectam quaisquer duas árvores na floresta, uma aresta (u, v) de peso 
mínimo. Sejam C, e €, as duas árvores que são conectadas por (u, v). Visto que (u, v) deve ser uma aresta leve que 
conecta €, a alguma outra árvore, o Corolário 23.2 implica que (u, v) é uma aresta segura para C,. O algoritmo de 
Kruskal se qualifica como um algoritmo guloso porque em cada etapa ele adiciona à floresta uma aresta de menor peso 
possível. 

Nossa implementação do algoritmo de Kruskal é semelhante ao algoritmo para calcular componentes conexas da 
Seção 21.1. Utiliza uma estrutura de dados de conjuntos disjuntos para manter vários conjuntos disjuntos de elementos. 
Cada conjunto contém os vértices em uma árvore da floresta atual A operação Finp-Ser(u) retorna um elemento 
representativo do conjunto que contém u. Assim, podemos determinar se dois vértices u e v pertencem à mesma árvore 
testando se Finp-Ser(u) é igual à Finp-Ser(v). Para combinar as árvores, o algoritmo de Kruskal chama o procedimento 


Union. 


MST-KRUSskKAL(G, ww) 


1 A=(y 

p for cada vértice v E G.V 

E Maxke-SET(U) 

4 ordene as arestas de G.E em ordem não decrescente de peso w 

5 for cada aresta (u, v) € G.E, tomada em ordem não decrescente de peso 
6 if FinD-SeT(u) = FIND-SET(U) 

7 A=AUÍ(u,v)) 

8 Union(u, v) 

9 return 4 


A Figura 23.4 mostra como o algoritmo de Kruskal funciona. As linhas 1-3 inicialzam o conjunto 4 para o 
conjunto vazio e criam |V] árvores, cada uma contendo um vértice. O laço for das linhas 5-8 examma arestas em ordem 
de peso, do mais baixo ao mais alto. O laço verifica, para cada aresta (u, v), se os pontos extremos u e v pertencem à 
mesma árvore. Se pertencerem, então a aresta (u, v) não pode ser adicionada à floresta sem criar um ciclo, e a aresta 
será descartada. Caso contrário, os dois vértices pertencem a árvores diferentes. Nesse caso, a linha 7 adiciona a 
aresta (u, v)a 4 e a linha 8 mtercala os vértices nas duas árvores. 

O tempo de execução do algoritmo de Kruskal para um grafo G = (V, E) depende da implementação da estrutura 
de dados de conjuntos disjuntos. Suponhamos que usamos a implementação de floresta de conjuntos disjuntos da 
Seção 21.3 com as heurísticas de união por ordenação e compressão de caminho, já que essa é a implementação 
assintoticamente mais rápida conhecida. A inicialização do conjunto 4 na linha 1 demora o tempo O(1), e o tempo para 
ordenar as arestas na linha 4 é O(E lg E). (Consideraremos em breve o custo das |V| operações Makr-Serno laço for 
das linhas 2-3.) O laço for das linhas 5-8 executa O(E) operações Finp-Ser e Union na floresta de conjuntos disjuntos. 
Essas operações, mais as |V] operações Maxe-Ser, demoram o tempo total O((V + E) o(V)), onde a é a função de 
crescimento muito lento definida na Seção 21.4. Como supomos que G é conexo, temos |E| > |V| - 1 e, assim, as 
operações de conjuntos disjuntos demoram o tempo O(E o(V)). Além disso, visto que o(|V|) = O(lg V) = O(lg E), o 
tempo de execução total do algoritmo de Kruskal é O(E lg E). Observando que |E| < |V/2, temos lg |E| = O(lg V) e, 
portanto, podemos reescrever o tempo de execução do algoritmo de Kruskal como O(E lg V). 


Figura 23.4 Execução do algoritmo de Kruskal no grafo da Figura 23.1. As arestas sombreadas pertencem à floresta que está sendo 
desenvolvida. O algoritmo considera cada aresta em sequência ordenada por peso. Uma seta aponta para a aresta que está sendo 
considerada em cada etapa do algoritmo. Se a aresta une duas árvores distintas na floresta, ela é adicionada à floresta, juntando assim 
as duas árvores. 


Algoritmo de Prim 


Como o algoritmo de Kruskal, o algoritmo de Prim é um caso especial do método genérico de árvore geradora 
mínima da Seção 23.1. O algoritmo de Prim funciona de modo muito semelhante ao algoritmo de Dijkstra para localizar 
caminhos mínimos em um grafo, que veremos na Seção 24.3. O algoritmo de Prim tem a seguinte propriedade: as 
arestas no conjunto 4 sempre formam uma árvore única. Como mostra a Figura 23.5, a árvore começa em um vértice 
raiz arbitrário r e aumenta até que a árvore abranja todos os vértices em V. Cada etapa adiciona à árvore 4 uma aresta 
leve que conecta 4 a um vértice isolado — um vértice no qual nenhuma aresta de A incide. Pelo Corolário 23.2, essa 
regra adiciona apenas arestas que são seguras para 4; portanto, quando o algoritmo termina, as arestas em 4 formam 
uma árvore geradora mínima. Essa estratégia se qualifica como gulosa, já que a cada etapa ela adiciona à árvore uma 
aresta que contribui com a mínima quantidade possível para o peso da árvore. 

Para implementar o algoritmo de Prim eficientemente, precisamos de um modo rápido para selecionar uma nova 
aresta a ser adicionada à árvore formada pelas arestas em 4. No pseudocódigo a seguir, o grafo conexo G ea raiz r da 
árvore geradora mínima a ser desenvolvida são entradas para o algoritmo. Durante a execução do algoritmo, todos os 
vértices que não estão na árvore residem em uma fila de prioridade mínima Q baseada em um atributo chave. Para 
cada vértice v, o atributo v.chave é o peso mínimo de qualquer aresta que conecta v a um vértice na árvore; por 
convenção, v.chave = co se não existe nenhuma aresta desse tipo. O atributo v.p nomeia o pai de v na árvore. O 
algoritmo mantém implicitamente o conjunto 4 de Generic-MST como 


A=t((v,vp:ivevV-(r)-O. 


Quando o algoritmo termina, a fila de prioridade mínima O está vazia; portanto, a árvore geradora mínima 4 para 
Ge 


A=I(v,vp):veV-(r).MSEPr(G, w,r) 
MST-Prim(G, w, 1) 


| for cada u € V[G] 

2 u.chave = 00 

3 u.7 = NIL 

4 r.chave = O 

5 O = VIG] 

6 while O = () 

7 u = ExrracT-MIN(Q) 

8 for cada v E G. Adj[u] 

9 ifve Qew(u,v) v.chave 
10 ur = U 

11 v.chave = w(u,v) 


A Figura 23.5 mostra como o algoritmo de Prim funciona. As linhas 1-5 definem a chave de cada vértice como oo 
(exceto a raiz r, cuja chave é definida como O e, por isso, será o primeiro vértice processado), define o pai de cada 
vértice como nt e inicializa a fila de prioridade mínima O para conter todos os vértices. O algoritmo mantém o seguinte 
invariante de laço de três partes: 


EDS re E Z?JZSTEMFMMMTEMTZEMZFEMMÍ 


(b) 


(d) 


() 


(h) 


Figura 23.5 Execução do algoritmo de Primno grafo da Figura 23.1. O vértice raiz é a. Arestas sombreadas estão na árvore que está 
sendo desenvolvida, e os vértices pretos estão na árvore. Em cada etapa do algoritmo, os vértices na árvore determinam um corte do 
grafo, e uma aresta leve que cruza o corte é acrescentada à árvore. Na segunda etapa, por exemplo, o algoritmo tem a opção de adicionar 
a aresta (b, c) ou a aresta (a, h) à árvore, visto que ambas são arestas leves que cruzamo corte. 


Antes de cada iteração do laço while das linhas 6-11, 


l A=(v,vrpj:veV-f)-O). 

2. Os vértices que já estão presentes na árvore geradora mínima são aqueles em V - O. 

3. Para todos os vértices v E O, se v.p nx, então v.chave < o e v.chave é o peso de uma aresta leve (v, v.p) que 
conecta v a algum vértice já inserido na árvore geradora mínima. 


A linha 7 identifica um vértice u E Q incidente em uma aresta leve que cruza o corte (V - O, O) (com exceção da 
primeira iteração, na qual u = r devido à linha 4). Remover u do conjunto Q o acrescenta ao conjunto V- O de vértices 
na árvore, adicionando assim (u, u.p) a A. O laço for das linhas 8-11 atualiza os atributos chave e p de cada vértice v 
adjacente a u, mas não na árvore; por consequência, mantém a terceira parte do invariante de laço. 


O tempo de execução do algoritmo de Prim depende de como implementamos a fila de prioridades OQ. Se 
implementamos OQ como um heap mínimo binário (veja o Capítulo 6), podemos usar o procedimento Bu p-Min-Hear 
para executar as linhas 1-5 no tempo O(V). O corpo do laço while é executado |V vezes e, como cada operação de 
Exrracr-Min demora o tempo O(lg V), o tempo total para todas as chamadas a Exrracr-Mn é O(V lg V). O laço for nas 
linhas 8-11 é executado O(E) vezes no total, já que a soma dos comprimentos de todas as listas de adjacências é 2/E]. 
Dentro do laço for, podemos implementar o teste de pertinência em O na linha 9 em tempo constante mantendo um bit 
para cada vértice que informa se ele está ou não em Q e atualizando o bit quando o vértice é removido de O. A 
atribuição na linha 11 envolve uma operação Decrease-Key implícita no heap mínimo, que um heap binário mínimo 
suporta no tempo O(lg V). Assim, o tempo total para o algoritmo de Prim é (Vl V+ Ele V = OE lg V), que é 
assintoticamente igual ao da nossa implementação do algoritmo de Kruskal. 

Podemos melhorar o tempo de execução assintótico do algoritmo de Prim usando heaps de Fibonacci O Capítulo 
19 mostra que, se um heap de Fibonacci contém |V| elementos, uma operação Exrracr-Min leva o tempo amortizado 
O(lg V) e uma operação Decrease-Key (para implementar a linha 11) leva o tempo amortizado O(1). Então, se usarmos 
um heap de Fibonacci para implementar a fila de prioridade mínima O, o tempo de execução do algoritmo de Prim 
melhorará para O(E + Ve V). 


Exercícios 


23.2-1 O algoritmo de Kruskal pode devolver diferentes árvores geradoras para o mesmo grafo de entrada G, 
dependendo de como as ligações são rompidas quando as arestas são ordenadas. Mostre que, para cada 
árvore geradora mínima T de G, existe um modo de ordenar as arestas de G no algoritmo de Kruskal, de tal 
forma que o algoritmo retorne 7. 


23.2-2 Suponha que representamos o grafo G = (V, E) como uma matriz de adjacências. Dê uma implementação 
simples do algoritmo de Prim para esse caso que seja executada no tempo O(V,). 


23.2-3 Para um grafo esparso G = (V, E), onde |[E| = Q(V), a implementação do algoritmo de Prim com um heap de 
Fibonacci é assintoticamente mais rápida que a implementação de heap binário? E para um grafo denso, onde 
|E| = Q(V,)? Como os tamanhos |E] e |V] devem estar relacionados para que a implementação de heap de 
Fibonacci seja assintoticamente mais rápida que a implementação de heap binário? 


23.2-4 Suponha que todos os pesos de arestas em um grafo sejam inteiros na faixa de 1 a |V]. Com que rapidez é 
possível executar o algoritmo de Kruskal? E se os pesos de arestas forem inteiros na faixa de 1 a W para 
alguma constante W? 


23.2-5 Suponha que todos os pesos de arestas em um grafo sejam inteiros na faixa de 1 a |V]. Com que rapidez é 
possível executar o algoritmo de Prim? E se os pesos de arestas forem inteiros na faixa de 1 a W para alguma 
constante W? 


23.2-6* Suponha que os pesos de arestas em um grafo estejam uniformemente distribuídos no intervalo meio aberto 
[0, 1). Qual algoritmo, o de Kruskal ou o de Prim, pode tornar a execução mais rápida? 


23.2-7* Suponha que um grafo G tenha uma árvore geradora mínima já calculada. Com que rapidez podemos atualizar 
a árvore geradora mínima se adicionarmos a G um novo vértice e arestas incidentes? 


23.2-8 O professor Borden propõe um novo algoritmo de divisão e conquista para calcular árvores geradoras 
mínimas, que apresentamos a seguir. Dado um grafo G = (V, E), particione o conjunto V de vértices em dois 
conjuntos V, e V,, tais que a diferença entre |V,|| e |V,| seja no máximo 1. Seja E, o conjunto de arestas 
incidentes somente em vértices de V, e seja E, o conjunto de arestas incidentes somente em vértices de V,. 


Resolva recursivamente um problema de árvore geradora mínima para cada um dos dois subgrafos G, = (V,, 
E)eG,=(V,, E,). Finalmente, selecione a aresta de peso mínimo em E que cruza o corte (V,, V,) e use essa 
aresta para unir as duas árvores geradoras mínimas resultantes em uma única árvore geradora. Demonstre que 
o algoritmo calcula corretamente uma árvore geradora mínima de G ou dê um exemplo para o qual o 
algoritmo não funciona. 


Problemas 


23-1 


23-2 


Segunda melhor árvore geradora mínima 


Seja G = (V, E) um grafo conexo não dirigido com função peso w : E — e suponha que |E| > |V] e todos os 
pesos de arestas sejam distintos. 


Definimos uma segunda melhor árvore geradora mínima da seguinte maneira: seja o conjunto de todas as 
árvores de G, e seja "uma árvore geradora mínima de G. Então, uma segunda melhor árvore geradora 
mínima é uma árvore geradora T'tal que v(D) =mn” E -7w(T9+. 


a. Mostre que a árvore geradora mínima é única, mas que a segunda melhor árvore geradora mínima não 
precisa ser única. 


b. Seja Tuma árvore geradora mínima de G. Prove que G contém arestas (u, v) € Te (x,y) é T'tais que 
T-((u,v)) U f(x,y); é uma segunda melhor árvore geradora mínima de G. 


c. Seja Tuma árvore geradora de G e, para quaisquer dois vértices u, v E V, seja maxu, v uma aresta de 
peso máximo no caminho simples único entre uy e v em T. Descreva um algoritmo de tempo O(V>) que, 
dado T, calcule maxu, v para todo u, v E V. 


d. Dê umalgoritmo eficiente para calcular a segunda melhor árvore geradora mínima de G. 
Arvore geradora mínima em grafos esparsos 


Para um grafo conexo muito esparso G = (V, E), podemos melhorar ainda mais o tempo de execução O(E + 
V1g V) do algoritmo de Prim com heaps de Fibonacci, executando um pré-processamento de G para diminuir 
o número de vértices antes da execução do algoritmo de Prim. Em particular, escolhemos, para cada vértice u, 
a aresta de peso mínimo (u, v) incidente em u e colocamos (u, v) na árvore geradora mínima em construção. 
Depois, contraímos todas as arestas escolhidas (veja a Seção B.4). Em vez de contrair essas arestas uma por 
vez, primeiro identificamos conjuntos de vértices que estão unidos no mesmo novo vértice. Então, criamos o 
grafo que teria resultado da contração dessas arestas uma por vez, mas fazemos isso “renomeando” arestas de 
acordo com os conjuntos nos quais seus pontos extremos foram colocados. Várias arestas do grafo original 
podem ser renomeadas como iguais a outras. Em tal caso, resulta somente uma aresta, e seu peso é o mínimo 
entre os pesos das arestas originais correspondentes. 


Inicialmente, definimos a árvore geradora mínima 7' que está sendo construída para ser vazia e, para cada 
aresta (u, v) €& E, inicializamos os atributos u, v orig=(u,v)eu,v  c=w(u, v). Usamos o atributo 
orig para referenciar a aresta do grafo inicial que está associada a uma aresta no grafo contraído. O atributo c 
contém o peso de uma aresta e, à medida que as arestas são contraídas, nós o atualizamos de acordo com o 
esquema descrito para escolha de pesos de arestas. O procedimento MS T-Repucr toma as entradas G e Te 
retorna um grafo contraído G "com atributos atualizados orig'e c”. O procedimento também acumula arestas 
de G na árvore geradora mínima 7. MST Revuce(G, 7) 


MST-Repuce(G, T) 


NATE ONH 


23-3 


f 


forcadave G.V 


v.mark = FALSE 
MaxkeE-SET(v) 


for cadau e G.V 


if u.mark == FALSE 
escolher v € G.Adj[u] tal que (u, v).c é minimizado 
Uniron(u, v) 
T=TUl(u,v).orig) 
u.mark = v.mark = TRUE 


G'.V = (Finp-Ser(v) :v E G.V) 
GE= 
for cada (x,y) E G.E 


u = FiND-SET(x) 
v = FinD-SeT(y) 
if(u,v) £G.E 
G.E=G.EU((u,v)) 
(u, v).orig” = (x, y).orig 
(u, v).c' = (x,y).c” 
else if (x,1).c < (u, v).c' 
(u, v).orig” = (x, y).orig 
(u, v).c' = (x,y).c 


construa listas de adjacências G'.Ad;j para G' 
return G'eT 


Seja To conjunto de arestas devolvidas por MSTRevucs e seja 4 a árvore geradora mínima do grafo G” 
formada pela chamada MS EPrim(G”, c”, r), onde c” é o atributo peso para as arestas de GE e r é 
qualquer vértice em G”.V. Prove que TU x,y -— orig":(x,y) € 4! é uma árvore geradora mínima 
de G. 


Demonstre que |G".V|< |V|2. 


Mostre como implementar MST-Repuce de modo que ele seja executado no tempo O(E). (Sugestão: 
Utilize estruturas de dados simples.) 


Suponha que executamos k fases de MST-Repucz usando a saída G* produzida por uma fase como a 
entrada de G para a fase seguinte e acumulando arestas em 7. Demonstre que o tempo de execução 
global das k fases é O(kE). 


Suponha que, depois de executar k fases de MS EReuce, como na parte (d), executamos o algoritmo de 
Prim chamando MS TPrim(G”, c”, r), onde G”, com atributo peso c”, é retornado pela última fase e 7 é 
qualquer vértice em G”. V. Mostre como escolher k de modo que o tempo de execução global seja O(E 
le le VW). Demonstre que sua escolha de k minimiza o tempo de execução assintótico global. 


Para quais valores de |E| (em termos de |V|) o algoritmo de Prim com pré-processamento é superior 
assintoticamente ao algoritmo de Prim sem pré-processamento? 


Árvore geradora de gargalo 


Uma árvore geradora de gargalo T de um grafo não dirigido G é uma árvore geradora de G cujo maior 
peso de aresta é mínimo em relação a todas as árvores geradoras de G. Dizemos que o valor da árvore 
geradora de gargalo é o peso da aresta de peso máximo em 7. 


a. 


Demonstre que uma árvore geradora mínima é uma árvore geradora de gargalo. 


A parte (a) mostra que encontrar uma árvore geradora de gargalo não é mais difícil que encontrar uma árvore 
geradora mínima. Nas partes restantes, mostraremos que é possível encontrá-la em tempo linear. 


b. Dê um algoritmo de tempo linear que, dado um grafo G e um inteiro b, determina se o valor da árvore 
geradora de gargalo é no máximo db. 


c. Use seu algoritmo para a parte (b) como uma sub-rotina em um algoritmo de tempo linear para o 
problema da árvore geradora de gargalo. (Sugestão: Seria interessante você usar uma sub-rotina que 
contraia conjuntos de arestas, como no procedimento MST-Revucs descrito no Problema 23-2.) 


23-4 Algoritmos alternativos de árvore geradora mínima 


Neste problema, apresentamos pseudocódigo para três algoritmos diferentes. Cada um toma um grafo conexo 
e uma função peso como entrada e retorna um conjunto de arestas T. Para cada algoritmo, prove que 7 é uma 
árvore geradora mínima ou que T não é necessariamente uma árvore geradora mínima. Descreva também a 
implementação mais eficiente de cada algoritmo, quer ele calcule ou não uma árvore geradora mínima. 


a. MAyBE-MST-A(G, ww) 
ordenar as arestas em ordem não crescente de pesos de arestas w 
E=E 
for cada aresta e, tomada em ordem não crescente de peso 
if T — (e) é um grafo conexo 
T=T-e 
return T 


AYBE-MST-B(G, ww) 
T=0 
for cada aresta e, tomada em ordem arbitrária 
if TU (e) não tem nenhum ciclo 
T=TU(e) 
return T 


AYBE-MST-C(G, ww) 
T=p 
for cada aresta e, tomada em ordem arbitrária 
T=TU(e) 
if T tem um ciclo c 
seja e” uma aresta de peso máximo em c 
T=T- (e) 


return T 


NorTas DO CAPÍTULO 


Tarjan [330] faz um levantamento do problema da árvore geradora mínima e dá excelente material avançado. 
Graham e Hell [151] compilaram um histórico do problema da árvore geradora mínima. 

Tarjan atribui o primeiro algoritmo de árvore geradora mínima a um artigo de 1926 produzido por O. Boruvka. O 
algoritmo de Boruvka consiste na execução de O(lg V) iterações do procedimento MST Revuce descrito no Problema 
23-2. O algoritmo de Kruskal foi apresentado por Kruskal [222] em 1956. O algoritmo comumente conhecido como 
algoritmo de Prim foi de fato desenvolvido por Prim [285], mas também foi criado antes por V. Jarník em 1930. 

A razão por que algoritmos gulosos são efetivos para encontrar árvores geradoras mínima é que o conjunto de 
florestas de um grafo forma um matroide gráfico (veja a Seção 16.4). 

Quando [|E| = (V lg V), o algoritmo de Prim implementado com heaps de Fibonacci é executado no tempo O(E). 
No caso de grafos mais esparsos, usando uma combinação das ideias do algoritmo de Prim, do algoritmo de Kruskal e 
do algoritmo de Boruvka, juntamente com estruturas de dados avançadas, Fredman e Tarjan [114] dão um algoritmo 
que é executado no tempo O(E lg* V). Gabow, Galil, Spencer e Tarjan [120] melhoraram esse algoritmo para ser 
executado no tempo O(E lg lg* VW). Chazelle [60] dá um algoritmo que é executado no tempo O(E o” (E, V)), onde a” 
(E, V) é a inversa funcional da função de Ackermam (veja nas notas do Capítulo 21 uma breve discussão da função de 
Ackermann e sua inversa). Diferentemente dos algoritmos de árvore geradora mínima anteriores, o algoritmo de 
Chazelle não segue o método guloso. 


Um problema relacionado é a verificação de árvores geradora, na qual temos um grafo G = (V, E) e uma árvore 
TEC Ee desejamos determmar se T é uma árvore geradora mínima de G. King [203] dá um algoritmo de tempo linear 
para verificação de árvores geradoras, fundamentado no trabalho anterior de Komlós [215] e Dixon, Rauch e Tarjan 
[91]. 

Os algoritmos que citamos aqui são todos determinísticos e se enquadram no modelo baseado em comparação 
descrito no Capítulo 8. Karger, Klein e Tarjan [195] dão um algoritmo aleatorizado de árvore geradora mínima que é 
executado no tempo esperado O(V + E). Esse algoritmo emprega recursão de um modo semelhante ao algoritmo de 
seleção de tempo linear na Seção 9.3: uma chamada recursiva para um problema auxiliar identifica um subconjunto das 
arestas E” que não podem estar em nenhuma árvore geradora mínima. Então, uma outra chamada recursiva em E - E" 
encontra a árvore geradora mínima. O algoritmo também usa ideias do algoritmo de Boruvka e do algoritmo de King 
para verificação de árvores geradoras. 

Fredman e Willard [116] mostraram como encontrar uma árvore geradora mínima no tempo O(V + E) usando um 
algoritmo determinístico que não é baseado em comparação. Seu algoritmo supoem que os dados são inteiros de b bits 
e que a memória do computador consiste em palavras endereçáveis de b bits. 


1Ã expressão “árvore geradora mínima” é uma forma abreviada da expressão “árvore geradora de peso mínimo”. Não estamos, por 
exemplo, minimizando o número de arestas em 7, já que todas as árvores geradoras têm exatamente |V] - 1 arestas de acordo com o 
Teorema B.2. 


») 4 (CAMINHOS MÍNIMOS DE FONTE ÚNICA 


Um motorista deseja encontrar a rota mais curta possível do Rio de Janeiro a São Paulo. Dado um mapa 
rodoviário do Brasil no qual a distância entre cada par de interseções adjacentes esteja marcada, como ele pode 
determinar essa rota mais curta? 

Um modo possível seria enumerar todas as rotas do Rio de Janeiro a São Paulo, somar as distâncias em cada rota 
e selecionar a mais curta. Porém, é fácil ver que até mesmo se deixarmos de lado as rotas que contêm ciclos, o 
motorista teria de examinar um número enorme de possibilidades, a maioria das quais simplesmente não valeria a pena 
considerar. Por exemplo, uma rota do Rio de Janeiro a São Paulo passando por Brasília é sem dúvida uma escolha ruim 
porque Brasília está várias centenas de quilômetros fora do caminho. 

Neste capítulo e no Capítulo 25, mostraremos como resolver tais problemas eficientemente. Em um problema de 
caminhos mínimos, temos um grafo dirigido ponderado G = (V, E), com finção peso w :E — — que mapeia arestas 
para pesos de valores reais. O peso do caminho p = (v,, V,, ..., V,) é a soma dos pesos de suas arestas constituintes: 


w(p) = tio) ab). 


Definimos o peso do caminho mínimo de u a v por 


SU E j 
S(u,v)= di :u->v] Se há um caminho de u para v, 


[9,9 caso contrário 


Então, um caminho mínimo do vértice u ao vértice v é definido como qualquer caminho p com peso w(p) = d(u, 
v). 

No exemplo da rota entre o Rio de Janeiro e São Paulo, podemos modelar o mapa rodoviário como um grafo: 
vértices representam interseções, arestas representam segmentos de estradas entre interseções e pesos de arestas 
representam distâncias rodoviárias. Nossa meta é encontrar um caminho mínimo de um dado entroncamento de 
rodovias no Rio de Janeiro a um dado entroncamento de rodovias em São Paulo. 

Pesos de arestas podem representar outras medidas que não sejam distâncias, como tempo, custo, multas, 
prejuízos ou qualquer outra quantidade que se acumule linearmente ao longo de um caminho e que seria interessante 
minimizar. 

O algoritmo de busca em largura da Seção 22.2 é um algoritmo de caminhos mínimos que funciona em grafos não 
ponderados, isto é, grafos nos quais cada aresta tem peso unitário. Como muitos dos conceitos da busca em largura 
surgem no estudo de caminhos mínimos em grafos ponderados, seria interessante o leitor revisar a Seção 22.2 antes de 
continuar. 


Variantes 


Neste capítulo, focalizaremos o problema de caminhos mínimos de fonte única: dado um grafo G = (V, E), 
queremos encontrar um caminho mínimo de determinado vértice de origem s E V a todo vértice v E V. O algoritmo 
para o problema da fonte única pode resolver muitos outros problemas, entre os quais as variantes apresentadas a 
seguir. 

Problema de caminhos mínimos com um só destino: Encontrar um caminho mínimo até um determinado vértice 

de destino t a partir de cada vértice v. Invertendo a direção de cada aresta no grafo, podemos reduzir esse 
problema a um problema de fonte única. 


Problema do caminho mínimo para um par: Encontrar um caminho mínimo de u a v para vértices u e v dados. 
Se resolvermos o problema de fonte única com vértice de fonte u, também resolveremos esse problema. Além 
disso, todos os algoritmos conhecidos para esse problema têm o mesmo tempo de execução assintótica do pior 
caso que os melhores algoritmos de fonte única. 


Problema de caminhos mínimos para todos os pares: Encontrar um caminho mínimo de u a v para todo par de 
vértices u e v. Embora seja possível resolver esse problema executando um algoritmo de fonte única uma vez 
para cada vértice, em geral podemos resolvê-lo mais rapidamente. Além disso, sua estrutura é interessante por 
sisó. O Capítulo 25 estuda em detalhes o problema para todos os pares. 


Subestrutura ótima de um caminho mínimo 


Em geral, algoritmos de caminhos mínimos se baseiam na seguinte propriedade: um caminho mínimo entre dois 
vértices contém outros caminhos mínimos. (O algoritmo de fluxo máximo de EdmondsKarp no Capítulo 26 também se 
baseia nessa propriedade.) Lembrese de que subestrutura ótima é um dos indicadores findamentais da possível 
aplicabilidade da programação dinâmica (Capítulo 15) e do método guloso (Capítulo 16). O algoritmo de Dijkstra, que 
veremos na Seção 24.3, é um algoritmo guloso, e o algoritmo de FloydWarshall, que encontra caminhos mínimos entre 
todos os pares de vértices (veja a Seção 25.2), é um algoritmo de programação dinâmica. O lema a seguir enuncia com 
maior exatidão a propriedade de subestrutura ótima de caminhos mínimos. 


Lema 24.1 (Subcaminhos de caminhos mínimos são caminhos mínimos) 


Dado um grafo dirigido ponderado G = (V, E) com função peso w : E > , seja p = (v,, V>, ..., v;) um caminho mínimo 
do vértice v, ao vértice v, e, para quaisquer i e j tais que | <i<j <k, seja p; = (V; V;+ 1, ..., v) O subcaminho p do 
vértice v; ao vértice v;. Então, p;; é um caminho mínimo de v, a v.. 
Prova Se decompusermos caminho v, *º v, 2%. v, -t v, teremos que w(p) = w(p,;) + w(p,) 
+ w(p,). Agora, suponha que exista um caminho p', de v, a v, com peso w(p',) < w(p,). Então, 
CR Po, U, A: v, RA v,é um caminho de v, a v, cujo peso w(p,) + w(p',) + W(Pj) é menor que w(p), o 
que contradiz a hipótese de que p seja um caminho mínimo de v, a v,. 


Px 
cd 


Arestas de peso negativo 


Algumas instâncias do problema de caminhos mínimos de fonte única podem incluir arestas cujos pesos são 
negativos. Se o grafo G = (V, E) não contém nenhum ciclo de peso negativo que possa ser alcançado da fonte s, então 
para todo v & V, o peso do caminho mínimo d(s, v) permanece bem definido, mesmo que tenha um valor negativo. 
Contudo, se o grafo contém um ciclo de peso negativo que possa ser alcançado a partir de s, os pesos de caminhos 
mínimos não são bem definidos. Nenhum caminho de s a um vértice no ciclo pode ser um caminho mínimo — sempre 
podemos encontrar um caminho de peso menor seguindo o caminho “mínimo” proposto e depois percorrendo o ciclo 
de peso negativo. Se houver um ciclo de peso negativo em algum caminho de s a v, definiremos d(s, v) = -o0 


A Figura 24.1 ilustra o efeito de pesos negativos e ciclos de pesos negativos em pesos de caminhos mínimos. 
Como há somente um caminho de s a a (o caminho (s, a)), temos d(s, a) = w(s, a) = 3. De modo semelhante, há 
somente um caminho de s a b, e assim d(s, b) = w(s, a) + w(a, b) = 3 + (-4) = —1. Há um número infinito de caminhos 
desac:(s,c),(s,c,d,c), (8,C, d, c, d, c), e assim por diante. Como o ciclo (c, d, c), tem peso 6+(-3) =3 >0,0 
caminho mínimo de s a c é (s, c), com peso d(s, c) = w (s, c) = 5 . Do mesmo modo, o caminho mínimo de s a d é (s, c, 
d), com peso d(s, d) = w(s, c) + w(c, d) = 11. Analogamente, há um número infinito de caminhos de s a e: (s, e), (s, e, 
f; e, 45, e, f, e, f, e), e assim por diante. Porém, visto que o ciclo (e, f, e), tem peso 3 + (-6) = —-3 < 0, não há nenhum 
caminho mínimo de s a e. Percorrendo o ciclo de peso negativo (e, f, e) um número arbitrário de vezes, podemos 
encontrar caminhos de s a e com pesos negativos arbitrariamente grandes e, assim, d(s, e) = — oo. De modo semelhante, 
d(s, 9) = — oo, Como g pode ser alcançado de f, também podemos encontrar caminhos com pesos negativos 
arbitrariamente grandes de s a g e, portanto, d(s, g) = -c0. Os vértices A, i e j também formam um ciclo de peso 
negativo. Contudo, eles não podem ser alcançados de s e, assim, d(s, h) = d(s, à) = d(s, j) = 00. 

Alguns algoritmos de caminhos mínimos, como o algoritmo de Dijkstra, consideram que todos os pesos de arestas 
no grafo de entrada são não negativos, como no exemplo do mapa rodoviário. Outros, como o algoritmo de Bellman- 
Ford, permitem arestas de peso negativo no grafo de entrada e produzem uma resposta correta desde que nenhum ciclo 
de peso negativo possa ser alcançado da fonte. Normalmente, se houver tal ciclo de peso negativo, o algoritmo poderá 
detectar e relatar sua existência. 


Ciclos 


Um caminho mínimo pode conter um ciclo? Como acabamos de ver, ele não pode conter um ciclo de peso 
negativo. Nem pode conter um ciclo de peso positivo, já que remover o ciclo do caminho produz um caminho com os 
mesmos vértices de fonte e destino, e um peso de caminho mais baixo. Isto é, se p'=(Vo, V,, ..., V,) é um caminho e c 
=(V; V; + 1, ..., v;) é um ciclo de peso positivo nesse caminho (de modo que v; = v; e w(c) > 0), então o caminho p* = 
(os Vp eo Vo VP HI, v;+2,..., vo) tem peso w(p”) = w(p) — w(c) < w(p) e, portanto, p não pode ser um caminho 
mínimo de va v,. 


Figura 24.1 Pesos negativos de arestas emum grafo dirigido. O peso do caminho mínimo que sai da fonte s aparece dentro de cada 
vértice. Como os vértices e e fformam um ciclo de peso negativo que pode ser alcançado de s, os pesos de seus caminhos mínimos são - 
co. Como o vértice g pode ser alcançado de um vértice cujo peso de caminho mínimo é -co, também ele tem um peso de caminho mínimo - 
oo. Vértices como A, i e j não podem ser alcançados de s e, assim, seus pesos de caminho mínimo são c0, embora eles se encontrem em um 
ciclo de peso negativo. 


Isso deixa apenas ciclos de peso 0. Podemos remover um ciclo de peso O de qualquer caminho para produzir um 
outro caminho cujo peso é o mesmo. Assim, se existe um caminho mínimo de um vértice de fonte s a um vértice de 
destino v que contém um ciclo de peso 0, então existe outro caminho mínimo de s a v sem esse ciclo. Enquanto que um 
caminho mínimo tenha ciclos de peso 0, podemos remover repetidamente esses ciclos do caminho até que tenhamos um 
caminho mínimo livre de ciclos. Então, sem perda da generalidade, podemos considerar que, quando estamos 
encontrando caminhos mínimos, eles não têm nenhum ciclo, isto é, são caminhos simples. Visto que qualquer caminho 
acíclico em um grafo G = (V, E) contém no máximo |V] vértices distintos, ele também contém no máximo |V — 1 ares- 
tas. Assim, podemos restringir nossa atenção a caminhos mínimos que tenham no máximo |V] — 1 arestas. 


Representação de caminhos mínimos 


Mutítas vezes, desejamos calcular não apenas pesos de caminhos mínimos, mas também os vértices nos caminhos 
mínimos. A representação que usamos para caminhos mínimos é semelhante à que utilizamos para árvores em largura na 
Seção 22.2. Dado um grafo G = (V, E), mantemos para cada vértice v &€ V um predecessor v.p que é um outro 
vértice ou nr. Os algoritmos de caminhos mínimos apresentados neste capítulo definem os atributos p de modo que a 
cadeia de predecessores que se origina em um vértice v percorra um caminho mínimo de s a v em sentido contrário. 
Assim, dado um vértice v para o qual v.p £ nz o procedimento Prinr-Paru(G, s, v) da Seção 22.2 imprimirá um 
caminho mínimo de s a v. 

Entretanto, durante a execução de um algoritmo de caminhos mínimos, os valores p poderiam não indicar caminhos 
mínimos. Como na busca em largura, estaremos interessados no subgrafo dos predecessores Gp = (Vp, Ep) induzido 
pelos valores p. Aqui, novamente definimos o conjunto de vértices Vp como o conjunto de vértices de G com 
predecessores não nm mais a fonte s: 


Vi=lveV:vm = NIL)U ls). 


O conjunto de arestas dirigidas E, é o conjunto de arestas induzidas pelos valores de p para os vértices em V: 
E=l(om,v)ceEF:vevV,— sl. 


Provaremos que os valores de p produzidos pelos algoritmos neste capítulo têm a seguinte propriedade: no 
término, Gp é uma “árvore de caminhos mínimos” — informalmente, uma árvore enraizada que contém um caminho 
mínimo da fonte s a todo vértice que pode ser alcançado de s. Uma árvore de caminhos mínimos é semelhante à árvore 
de busca em largura da Seção 22.2, mas contém caminhos mínimos que partem da fonte definidos em termos de pesos 
de arestas, em vez de números de arestas. Para sermos precisos, seja G = (V, E) um grafo dirigido ponderado com 
função peso w : E —, e considere que G não suponha nenhum ciclo de peso negativo que possa ser alcançado do 
vértice de fonte s & V, de modo que esses caminhos mínimos são bem definidos. Uma árvore de caminhos mínimos 
com raiz em s é um subgrafo dirigido G'=(V, E),ondeV” € Ve E" € E, tal que 
Il. Véo conjunto de vértices que podem ser alcançados de s em G, 

2. G' forma uma árvore enraizada comraizs e 
3. paratodo v € V”,o único caminho simples de s a v em G” é um caminho mínimo de s a v em G. 

Caminhos mínimos não são necessariamente únicos nem são necessariamente únicas as árvores de caminhos 
mínimos. Por exemplo, a Figura 24.2 mostra um grafo dirigido ponderado e duas árvores de caminhos mínimos com a 
mesma raiz. 


| 


4d) 


Figura 24.2 (a) Um grafo dirigido ponderado com caminhos de peso mínimo que partem da fonte s. (b) As arestas sombreadas formam 
uma árvore de caminhos mínimos com raiz na fonte s. (c) Uma outra árvore de caminhos mínimos com a mesma raiz. 


Relaxamento 


Os algoritmos neste capítulo usam a técnica de relaxamento. Para cada vértice v & V, mantemos um atributo 
v.d, que é um limite superior para o peso de um caminho mínimo da fonte s a v. Denomimnamos v.d uma estimativa de 
caminho mínimo. Inicializamos as estimativas de caminhos mínimos e predecessores pelo seguinte procedimento de 


tempo O(V)): 


INITIALIZE-SINGLE-SOURCE(G, S) 


1 for cada vérticev e V[G] 
2 vd= 0 

3 v.T = NIL 

4 sd=0 


Após a inicialização, temos vp = nm paratodov E V,s.d=0evd=oparav E V- (sl. 

O processo de relaxar uma aresta (u, v) consiste em testar se podemos melhorar o caminho mínimo até v que 
encontramos até agora passando por u e, em caso positivo, atualizar v.d e v.p. Uma etapa de relaxamento! pode 
diminuir o valor da estimativa do caminho mínimo v.d e atualizar o atributo predecessor de v, v.p. O seguinte código 
executa uma etapa de relaxamento para a aresta (u, v) no tempo O(1). 


RELAX(U, U, WW) 


1 ifud>ud+w(u,v) 
2 vd=ud+w(u,v) 
3 UT=U 


A Figura 24.3 mostra dois exemplos de relaxamento de uma aresta: em um deles a estimativa de caminhos mínimos 
diminui e, no outro, nenhuma estimativa muda. 

Cada algoritmo neste capítulo chama InrmaLize-SincLE-Source e depois relaxa arestas repetidamente. Além disso, o 
relaxamento é o único meio de mudar estimativas de caminhos mínimos e predecessores. As diferenças entre os 
algoritmos apresentados neste capítulo são a quantidade de vezes que relaxam cada aresta e a ordem em que relaxam 
arestas. O algoritmo de Dijkstra e o algoritmo de caminhos mínimos para grafos acíclicos dirigidos relaxam cada aresta 
exatamente uma vez. O algoritmo de BellmanFord relaxa cada aresta |V| — 1 vezes. 
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Figura 24.3 Relaxamento de uma aresta (u, v) compeso w(u, v) = 2. A estimativa de caminho mínimo de cada vértice aparece dentro do 
vértice. (a) Como vd > u.d + w (u, v) antes do relaxamento, o valor de v.d diminui. (b) Aqui, vd <u.d + w(u, v) antes do relaxamento da 
aresta e, assim, a etapa de relaxamento deixa v.d como estava. 


Propriedades de caminhos mínimos e relaxamento 


Para provar a correção dos algoritmos deste capítulo, recorreremos a várias propriedades de caminhos mínimos e 
relaxamento. Enunciamos essas propriedades aqui, e a Seção 24.5 apresentará a prova formal. Para sua referência, 
cada propriedade enunciada aqui inclui o número adequado do lema ou corolário da Seção 24.5. As cinco últimas 
dessas propriedades, que se referem a estimativas de caminhos mínimos ou o subgrafo dos predecessores, supõem 


Ed sê 


estimativas de caminhos mínimos e o subgrafo dos predecessores é empregar alguma sequência de etapas de 
relaxamento. 


Desigualdade triangular (Lema 24.10) 


Para qualquer aresta (u, v) & E, temos d(s, v) < d(s, u) + w(u, v). 

Propriedade do limite superior (Lema 24.11) 
Sempre temos v.d > d(s, v) para todos os vértices v € Ve, tão logo d[v] alcança o valor d(s, v), nunca mais 
muda. 

Propriedade de inexistência de caminho (Corolário 24.12) 


Se não existe nenhum caminho de s a v, então sempre temos v.d = d(s, v) = 00. 
Propriedade de convergência (Lema 24.14) 
Ses u — v é um caminho mínimo em G para algum u, v E Ve se u.d = d(s, u) em qualquer instante antes de 
relaxar a aresta (u, v), então v.d = d(s, v) em todos os instantes posteriores. 
Propriedade de relaxamento de caminho (Lema 24.15) 
Se p= (Vo Vj> -..» V;) é um caminho mínimo de s = v,a v, e relaxamos as arestas de p na ordem (v,, v)), (V,, 


Vo «.., (Vy-1, Vi), então vd = d(s, v,). Essa propriedade é válida independentemente de quaisquer outras 
etapas de relaxamento que ocorram, ainda que elas estejam misturadas com relaxamentos das arestas de p. 


Propriedade do subgrafo dos predecessores (Lema 24.17) 


Assim que v.d = d(s, v) para todo v E V, o subgrafo dos predecessores é uma árvore de caminhos mínimos 
com raiz ems. 


Esboço do capítulo 


A Seção 24.1 apresenta o algoritmo de Bellman-Ford, que resolve o problema de caminhos mínimos de fonte 
única no caso geral em que as arestas podem ter peso negativo. O algoritmo de Bellman-Ford é notável por sua 
simplicidade e tem a vantagem adicional de detectar se um ciclo de peso negativo pode ser alcançado da fonte. A 
Seção 24.2 dá um algoritmo de tempo linear para calcular caminhos mínimos que partem de uma fonte única em um 
grafo acíclico dirigido. A Seção 24.3 discute o algoritmo de Dijkstra, cujo tempo de execução é menor que o do 
algoritmo de Bellman-Ford, mas requer que os pesos de arestas sejam não negativos. A Seção 24.4 mostra como 
podemos usar o algoritmo de Bellman-Ford para resolver um caso especial de programação linear. Finalmente, a Seção 
24.5 prova as propriedades de caminhos mínimos e relaxamento enunciadas anteriormente. 

Precisamos de algumas convenções para efetuar cálculos aritméticos com valores infinitos. Adotaremos, para 
qualquer número real a £ -o0,a+c0=0c0+a = oo, Além disso, para tornar nossas demonstrações (ou provas) válidas 
na presença de ciclos de peso negativo, adotamos, para qualquer número real a £ 00, a + (-00) = (-00) + a = -00, 

Todos os algoritmos neste capítulo supõem que o grafo dirigido G é armazenado pela representação de lista de 
adjacências. Além disso, com cada aresta está armazenado seu peso, de modo que, à medida que percorremos cada 
lista de adjacências, podemos determinar os pesos de arestas no tempo O(1) por aresta. 


24.1 OarcoriTMo DE BELLMAN-FORD 


O algoritmo de Bellman-Ford resolve o problema de caminhos mínimos de fonte única no caso geral no qual os 
pesos das arestas podem ser negativos. Dado um grafo dirigido ponderado G = (V, E) com fonte s e função peso w : E 
> , 0 algoritmo de Bellman-Ford devolve um valor booleano que indica se existe ou não um ciclo de peso negativo que 
pode ser alcançado da fonte. Se tal ciclo existe, o algoritmo indica que não há nenhuma solução. Se tal ciclo não existe, 
o algoritmo produz os caminhos mínimos e seus pesos. 

O algoritmo relaxa arestas diminuindo progressivamente uma estimativa v.d do peso de um caminho mínimo da 
fonte s a cada vértice v &E V até chegar ao peso propriamente dito do caminho mínimo d(s, v). O algoritmo retorna 
TRUE se e somente se o grafo não contém nenhum ciclo de peso negativo que possa ser alcançado da fonte. 


BELLMAN-FORD(G, ww, Ss) 


1 INITIALIZE-SINGLE-SOURCE(G, 5) 
2 fori=1to|VIG]-1 

3 for cada aresta (u,v) E E[G] 
4 RELAX(U, VU, W) 

5 forcada aresta (u,v) € E[G] 

6 ifvd>ud+uw(u,v) 

7 return FALSE 

8 return TRUE 


A Figura 24.4 mostra a execução do algoritmo de BellmanFord para um grafo com cinco vértices. Depois de 
inicializar os valores de d e p de todos os vértices na linha 1, o algoritmo faz || — 1 passagens pelas arestas do grafo. 
Cada passagem é uma iteração do laço for das linhas 2-4 e consiste em relaxar cada aresta do grafo uma vez. As 
Figuras 24.4(b)-(e) mostram o estado do algoritmo após cada uma das quatro passagens pelas arestas. Depois de 
executar |V] — 1 passagens, as linhas 5-8 verificam se há um ciclo de peso negativo e devolvem o valor booleano 
adequado. (Um pouco mais adiante veremos por que essa verificação funciona.) 


(d) (e) 


Figura 24.4 Execução do algoritmo de Bellman-Ford. A fonte é o vértice s. Os valores de d aparecem dentro dos vértices, e arestas 
sombreadas indicamos valores de predecessores; se a aresta (u, v) estiver sombreada, então v.p =u. Nesse exemplo específico, cada 
passagemrelaxa as arestas na ordem (t, x), (t, ), (£, 2), (x, ), (7,2), (7, 2), (2, x), (2, 8), (8, É), (8, 7). (a) Situação imediatamente antes da 
primeira passagem pelas arestas. (b)-(e) Situação após cada passagem sucessiva pelas arestas. Os valores de d e p na parte (e) são os 
valores finais. O algoritmo de Bellman-Ford retorna Trur nesse exemplo. 


O algoritmo de BellmanFord é executado no tempo O(V E), já que a inicialização na linha 1 demora o tempo 
O(V), cada uma das |V| — 1 passagens pelas arestas nas linhas 2-4 demora o tempo O(E), e o laço for das linhas 5-7 
demora o tempo O(E). 

Para provar a correção do algoritmo de BellmanFord, começamos mostrando que, se não existir nenhum ciclo de 
peso negativo, o algoritmo calcula pesos de caminhos mínimos corretos para todos os vértices que podem ser 
alcançados da fonte. 


Lema 24.2 


Seja G = (V, E) um grafo dirigido ponderado com fonte s e função peso w : E >, e suponha que G não contenha 
nenhum ciclo de peso negativo que possa ser alcançado de s. Então, após as |V] — 1 iterações do laço for das linhas 2- 
4 de BerLman-Forp, temos v.d = d(s, v) para todos os vértices v que podem ser alcançados de s. 


Prova Provamos o lema apelando para a propriedade de relaxamento de caminho. Considere qualquer vértice v que 
possa ser alcançado de s e seja p = (Vo, V,, -.., V,) onde v; = s e v, = v, qualquer caminho mínimo de s a v. Como os 
caminhos mínimos são simples, p tem no máximo |V] — 1 arestas e, assim, k < |V| — 1. Cada uma das |V] — 1 iterações 
do laço for das linhas 2-4 relaxa todas as [E] arestas. Entre as arestas relaxadas na i-ésima iteração, para i = 1,2,..., 
k, está (v, - 1, v;). Então, pela propriedade de relaxamento de caminho, v.d = v.d= d(s, vJ= ds, v). 


Corolário 24.3 


Seja G = (V, E) um grafo dirigido ponderado com vértice fonte s e função peso w : E — e suponha que G não 
contenha nenhum ciclo negativo que possa ser alcançado de s. Então, para cada vértice v & V, existe um caminho de s 
a v se € somente se BeLLman-Forp termina com v.d < co quando é executado em G. 


Prova A prova fica para o Exercício 24.12 


Teorema 24.4 (Correção do algoritmo de Bellman-Ford) 


Considere o algoritmo de Beriman-Forp executado para um grafo dirigido ponderado G = (V, E) com fonte s e função 
peso w : E — . Se G não contém nenhum ciclo de peso negativo que possa ser alcançado de s, então o algoritmo 
retorna True, temos v.d = d(s, v) para todos os vértices v € V, e o subgrafo predecessor Gp é uma árvore de 
caminhos mínimos com raiz em s. Se G contém um ciclo de peso negativo que possa ser alcançado de s, então o 
algoritmo retorna FaLse. 


Prova Suponha que o grafo G não contenha nenhum ciclo de peso negativo que possa ser alcançado da fonte s. 
Primeiro, provamos a afirmação de que, no térmmo, v.d = d(s, v) para todos os vértices v E V. Se o vértice v pode 
ser alcançado de s, então o Lema 24.2 prova essa afirmação. Se v não pode ser alcançado de s, a afirmação decorre 
da propriedade da inexistência de caminho. Portanto, a afirmação está provada. A propriedade do subgrafo dos 
predecessores, juntamente com a afirmação, implica que Gp é uma árvore de caminhos mínimos. Agora, usamos a 
afirmação para mostrar que BeLLman-Forp retorna Truz. No término, temos para todas as arestas (u, v) E E, 


vd =5(s,v) 
<ó(s,u) + w(u,v) (pela desigualdade triangular) 
=u.d + w(u,v), 


e, assim, nenhum dos testes na linha 6 faz BeLLMAN-Forp retornar FaLse. Então, ele retorna Truz. 
Agora, suponha que o grafo G contenha um ciclo de peso negativo que possa ser alcançado da fonte s; seja esse 
ciclo c = (Vo, 4» -..» Vi), Onde v, = V,. Então, 
k 


>iuw(v, (0) O. (24.1) 
=1 


1 
! 


Considere, por contradição, que o algoritmo de BellmanFord retorne TRUE. Assim, v,.d < 
v;-lLd+w(v,- 1, v;) parai= 1,2,..., k. Somando as desigualdades em torno do ciclo c temos 


k k 
>, e d < 3 (v, d+ W(v, ne ) 
k k 
e 2 V q d+ a» W(v, q10,). 
i=1 


i=1 


k qa 
Como v, = v,, cada vértice em c aparece exatamente uma vez em cada um dos somatórios e Duma e Duas ; 
portanto 


> vd = s EL ul 
ps p= 


Além disso, pelo Corolário 24.3, v..d é finito para i = 1,2, ..., k. Assim, 


k 
0 Re E» w(v,, d U,) F 
i=1 


o que contradiz a desigualdade (24.1). Concluímos que o algoritmo de BellmanFord retorna True se o grafo G não 
contém nenhum ciclo de peso negativo que possa ser alcançado da fonte, e Fase em caso contrário. 


Exercícios 


24.1-1 Execute o algoritmo de BellmanFord no grafo dirigido da Figura 24.4, usando o vértice z como fonte. Em 
cada passagem, relaxe arestas na mesma ordem da figura e mostre os valores de d e p após cada passagem. 
Agora, mude o peso da aresta (z, x) para 4 e execute o algoritmo novamente, usando s como fonte. 


24.1-2 Prove o Corolário 24.3. 


24.1-3 Dado um grafo dirigido ponderado G = (V, E) sem ciclos de peso negativo, seja m o máximo para todos os 
vértices u, v & V do número mínimo de arestas em um caminho mínimo da fonte s até v. (Aqui, o caminho 
mínimo é por peso, não pelo número de arestas.) Sugira uma mudança simples no algoritmo de BellmanFord 
que permita terminá-lo em m + 1 passagens, ainda que m não seja conhecido com antecedência. 


24.1-4 Modifique o algoritmo de BellmanFord de modo que ele termine com v.d como — co para todos os vértices v 
para os quais existe um ciclo de peso negativo em algum caminho da fonte até v. 


24.1-5 *% Seja G=(V, E) um grafo dirigido ponderado com função peso w : E — . Dê um algoritmo de tempo O(V 
E) para encontrar, para cada vértice v E V, o valor d*(v) = mu Ev (d(u, v)+. 


24.1-6 * Suponha que um grafo dirigido ponderado G = (V, E) tenha um ciclo de peso negativo. Dê um algoritmo 
eficiente para produzir uma lista de vértices de tal ciclo. Prove que seu algoritmo é correto. 


24.2 (CAMINHOS MÍNIMOS DE FONTE ÚNICA EM GRAFOS ACÍCLICOS DIRIGIDOS 


Relaxando as arestas de um gad (grafo acíclico dirigido) ponderado G = (V, E), de acordo com uma ordenação 
topológica de seus vértices, podemos calcular caminhos mínimos de uma fonte única no tempo O(V + E). Caminhos 
mínimos são sempre bem definidos em um gad já que, mesmo que existam arestas de peso negativo, não deve existir 
nenhum ciclo de peso negativo. 

O algoritmo começa ordenando topologicamente o gad (veja a Seção 22.4) para impor uma ordenação linear para 
os vértices. Se o gad contém um caminho do vértice u ao vértice v, então u precede v na ordem topológica. Fazemos 
apenas uma passagem pelos vértices na sequência ordenada topologicamente À medida que processamos cada vértice, 
relaxamos cada aresta que sai do vértice. 


Dac-SHORTEST-PATHS (G, wW,5) 


1 ordenar topologicamente os vértices de G 

2 INITIALIZE-SINGLE-SOURCE (G, s) 

3 for cada vértice u tomado em ordem topológica 
4 for cada vértice v e Adj[u] 

5 RELAX(U, VU, W) 


A Figura 24.5 mostra a execução desse algoritmo. 

É fácil analisar o tempo de execução desse algoritmo. Como mostra a Seção 22.4, a ordenação topológica da linha 
1 demora o tempo O(V + E). A chamada de Inmarize-Sincre-Source na linha 2 demora o tempo O(V). O laço for das 
linhas 3-5 executa uma iteração por vértice. No total, o laço for das linhas 4-5 relaxa cada vértice exatamente uma vez. 
(Usamos aqui uma análise agregada.) Como cada iteração do laço for demora o tempo O(1), o tempo total de 
execução é O(V + E), que é linear em relação ao tamanho de uma representação de lista de adjacências do grafo. 


(g) 


Figura 24.5 Execução do algoritmo para caminhos mínimos em um grafo acíclico dirigido. Os vértices são ordenados topologicamente 
da esquerda para a direita. O vértice da fonte é s. Os valores de d aparecem dentro dos vértices, e arestas sombreadas indicam os 

valores de p. (a) Situação antes da primeira iteração do laço for das linhas 3-5. (b)-(g) Situação após cada iteração do laço for das linhas 
3-5. O vértice que acabou de ser pintado de preto em cada iteração foiusado como u naquela iteração. Os valores mostrados na parte (g) 
são os valores finais. 


O teorema apresentado a seguir mostra que o procedimento Dac-SHorresr-ParHs calcula corretamente os caminhos 
mínimos. 


Teorema 24.5 


Se um grafo dirigido ponderado G = (V, E) tem vértice de fonte s e nenhum ciclo, então no término do 
procedimento Dac-Snorresr-Paras, v.d = d(s, v) para todos os vértices v € V, e o subgrafo dos predecessores Gp é 
uma árvore de caminhos mínimos. 


Prova Primeiro, mostramos que v.d = d(s, v) para todos os vértices v &€ V no término. Se v não pode ser alcançado 
de s, então v.d = d(s, v) = oo pela propriedade da mexistência de caminho. Agora, suponha que v possa ser alcançado 
de s, de modo que existe um caminho mínimo p = (v,, V,, ..., vp), onde v;=s e v, = v. Como processamos os vértices 
em sequência ordenada topologicamente, relaxamos as arestas em p na ordem (vo, v), (Vj Vo), +. (Vi cl, vy. À 
propriedade de relaxamento de caminho implica que d[v,] = d(s, v,;) no término para i = 0, 1, ..., k. Finalmente, pela 
propriedade de subgrafo predecessor, Gp é uma árvore de caminhos mínimos. 


Uma aplicação interessante desse algoritmo surge na determinação de caminhos críticos na análise de diagramas 
PERT? As arestas representam serviços que devem ser executados, e os pesos de arestas representam os tempos 
necessários para a execução de determinados serviços. Se a aresta (u, v) entra no vértice v e a aresta (v, x) sai de v, 
então o serviço (u, v) deve ser executado antes do serviço (v, x). Um caminho nesse gad representa uma sequência de 


serviços que devem ser executados em determinada ordem. Um caminho crítico é um caminho de comprimento 
máximo no gad, correspondente ao tempo máximo para a execução de qualquer sequência de serviços. Assim, o peso 
de um caminho crítico dá um limite mferior para o tempo total de execução de todos os serviços. Podemos encontrar 
um caminho crítico de duas maneiras: 
* tornando negativos os pesos de arestas e executando Dac-SHorresr-Paras OU 

q. 


* | executando Dac-Snorresr-Parus, substituindo “o” por “-co” na linha 2 de InmaLize-SinoLE-Source e “>” por “<” no 
procedimento ReLax. 


Exercícios 
24.2-1 Execute Dao-Snorresr-Paras para o grafo dirigido da Figura 24.5, usando o vértice r como fonte. 


24.2-2 Suponha que mudamos a linha 3 de Dac-Snorresr-ParHs para 3 for os primeiros |V| — 1 vértices, tomados em 
ordem topológica 


Mostre que o procedimento continuaria correto. 


24.2-3 A formulação de diagramas Perr que citamos não é muito natural. Mais natural seria uma estrutura na qual os 
vértices representassem serviços e as arestas representassem restrições de sequenciamento; isto é, a aresta (u, 
v) indicaria que o serviço u deve ser executado antes do serviço v. Então, atribuiríamos pesos a vértices, e 
não a arestas. Modifique o procedimento Dac-Snorresr-Parus de modo que ele encontre um caminho de 
comprimento máximo em um grafo acíclico dirigido com vértices ponderados em tempo linear. 


24.2-4 Dê um algoritmo eficiente para contar o número total de caminhos em um grafo acíclico dirigido. Analise seu 
algoritmo. 


24.3 ALGoRITMO DE DiKSTRA 


O algoritmo de Dijkstra resolve o problema de caminhos mínimos de fonte única em um grafo dirigido ponderado 
G =(V, E) para o caso no qual todos os pesos de arestas são não negativos. Então, nesta seção suporemos que w(u, 
v) > O para cada aresta (u, v) & E. Como veremos, com uma boa implementação, o tempo de execução do algoritmo 
de Dijkstra é inferior ao do algoritmo de BellmanFord. 

O algoritmo de Dijkstra mantém um conjunto S de vértices cujos pesos finais de caminhos mínimos que partem da 
fonte s já foram determinados. O algoritmo seleciona repetidamente o vértice u &E V— S que tem a mínima estimativa 
do caminho mínimo, adiciona u a S e relaxa todas as arestas que saem de u. Na implementação a seguir, usamos uma 
fila de prioridades mínimas Q de vértices cujas chaves são os valores de d. 


DIJksTRA(G, W,S) 


INITIALIZE-SINGLE-SOURCE(G, S) 
S=( 
Q = VI6| 
while O = () 
u = ExrrAcT-MIN(Q) 
S=oUla) 
for cada vértice v e G.Adj[u] 
8 RELAX(U, U, tW) 


JO GR ORNM 


O algoritmo de Dijkstra relaxa arestas, como mostra a Figura 24.6. A linha 1 inicializa os valores de d e p do modo 
usual, e a linha 2 inicializa o conjunto S como o conjunto vazio. O algoritmo mantém o invariante O= V — S no início de 
cada iteração do laço while das linhas 4-8. A linha 3 inicializa a fila de prioridades mínimas Q para conter todos os 
vértices em V; visto que .S = /0 nesse momento, o invariante é verdadeiro após a linha 3. Em cada passagem pelo laço 
while das linhas 48, a linha 5 extrai um vértice u de O = V— Se a linha 6 o adiciona ao conjunto S, mantendo assim o 
invariante. (Na primeira passagem por esse laço, u = s.) Portanto, o vértice u tem a menor estimativa de caminhos 
mínimos em comparação com qualquer vértice em V— S. Então, as linhas 78 relaxam cada aresta (u, v) que sai de u, 
atualizando assim a estimativa v.d e o predecessor v.p se, passando por u, pudermos melhorar o caminho mínimo até v 
que encontramos até aqui Observe que o algoritmo nunca insere vértices em O após a linha 3 e que cada vértice é 
extraído de O e adicionado a S exatamente uma vez, de modo que o laço while das linhas 4-8 ítera exatamente |V] 
vezes. 

Como o algoritmo de Dijkstra sempre escolhe o vértice “mais leve” ou “mais próximo” em V— S para adicionar ao 
conjunto S, podemos dizer que ele utiliza uma estratégia gulosa. O Capítulo 16 dá uma explicação detalhada de 
estratégias gulosas, mas você não precisa ler aquele capítulo para entender o algoritmo de Dijkstra. Estratégias gulosas 
nem sempre produzem resultados ótimos em geral, mas, como mostram o teorema a seguir e seu corolário, o algoritmo 
de Dijkstra realmente calcula caminhos mínimos. A chave é mostrar que, cada vez que o algoritmo insere um vértice u 
no conjunto S, temos u.d = d(s, u). 
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Figura 24.6 Execução do algoritmo de Dijkstra. A fonte s é o vértice mais à esquerda. As estimativas de caminho mínimo aparecem 
dentro dos vértices, e as arestas sombreadas indicam valores de predecessores. Vértices pretos estão no conjunto S e vértices brancos 
estão na fila de prioridades mínimas O=V-S. (a) Situação imediatamente antes da primeira iteração do laço while das linhas 4-8. O 
vértice sombreado temo valor d mínimo e é escolhido como vértice u na linha 5. (b)-(f) Situação após cada iteração sucessiva do laço 
while. O vértice sombreado em cada parte é escolhido como vértice u na linha 5 da próxima iteração. Os valores de d e p mostrados na 
parte (f) são os valores finais. 


Teorema 24.6 (Correção do algoritmo de Dijkstra) 


O algoritmo de Dijkstra, se executado para um grafo dirigido ponderado G = (V, E) com função peso não negativa 
w e fonte s, termmna com u.d = d(s, u) para todos os vértices u E V. 


Prova Usamos o seguinte mmvariante de laço: 
No início de cada iteração do laço while das linhas 4-8, v.d = d(s, v) para cada vértice v E 8. 


Basta mostrar que, para cada vértice u & V, temos u.d = d(s, u) no momento em que u é adicionado ao conjunto 5S. 
Uma vez mostrado que u.d = d(s, u), recorremos à propriedade do limite superior para mostrar que a igualdade é 
válida em todos os momentos daí em diante. 


Inicialização: Inicialmente, S = 2 e, assim, o invariante é trivialmente verdadeiro. 


Manutenção: Desejamos mostrar que, em cada iteração, u.d = d(s, u) para o vértice adicionado ao conjunto S. 
Por contradição, seja u o primeiro vértice para o qual u.d + d(s, u) quando ele é adicionado ao conjunto S. 
Concentraremos nossa atenção na situação existente no início da iteração do laço while quando u é adicionado 
a S e deduzimos a contradição u.d = d(s, u) naquele instante examinando um caminho mínimo de s a u. 
Devemos ter u £ s porque s é o primeiro vértice adicionado ao conjunto S e s.d = d(s, s) = O naquele instante. 
Como u * s, temos também que S £ /0 exatamente antes de u ser adicionado a S. Deve existir algum caminho 
des au, senão u.d = d(s, u) = co pela propriedade da inexistência de caminho, o que violaria nossa hipótese u.d 
+ d(s, u). Como há pelo menos um caminho, existe um caminho mínimo p de s a u. Antes de se adicionar u a S, 
o caminho p conecta um vértice em S, isto é, s a um vértice em V— S, isto é, u. Vamos considerar o primeiro 
vértice y ao longo de p talquey € V- S, esejax € So predecessor de y. Assim, como mostra a Figura 24.7, 
podemos decompor o caminho p ems pix — y p2u. (Qualquer dos caminhos p, ou p, pode não ter nenhuma 
aresta.) Afirmamos que y.d = d(s, y) quando u é adicionado a S. Para provar essa afirmação, observe que x & 
S. Então, como u foi escolhido como o primeiro vértice para o qual u.d £ d(s, u) quando foi adicionado a 8, 
tínhamos x.d = d(s, x) quando x foi adicionado a S. A aresta (x, y) foi relaxada naquele momento, e a afirmação 
decorre da propriedade de convergência. Agora, podemos obter uma contradição para provar que d[u] = d(s, 
u). Como y aparece antes de u em um caminho mínimo de s a u e todos os pesos de arestas são não negativos 
(especialmente os das arestas do caminho p,), temos d(s, y) < d(s, u) e, assim, 


y.d = S(s, 1) 
< O(s, u) (24.2) 
<ud (pela propriedade do limite superior) . 


Porém, como os vértices u e y estavam em V — S quando u foi escolhido na linha 5, temos u.d < y.d]. Assim, as 
duas desigualdades em (24.2) são de fato igualdades, o que dá 
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Figura 24.7 A prova do Teorema 24.6. O conjunto S é não vazio imediatamente antes de o vértice u ser adicionado a ele. Decompomos 
um caminho mínimo p da fonte s ao vértice u ems pix > y p2u, onde y é o primeiro vértice no caminho que não estáem Sex E S 
precede imediatamente y. Os vértices x e y são distintos, mas poderíamos ter s =x ou y =u. O caminho p, pode reentrar ou não no 
conjunto S. 


yd=ôs.m)=ó(sum)=ud. 


Consequentemente, u.d = d(s, u), o que contradiz nossa escolha de u. Concluímos que u.d = d(s, u) quando u é 
adicionado a S e que essa igualdade é mantida por todo o tempo daí em diante. 


Término: No término, O = /0 que, juntamente com nosso invariante anterior, O = V— S, implica S = V. Assim, u.d = 
d(s, u) para todos os vértices u € V. 


Corolário 24.7 


Se executarmos o algoritmo de Dijkstra para um grafo dirigido ponderado G = (V, E) com função peso não 
negativa w e fonte s, então, no término, o subgrafo predecessor Gp será uma árvore de caminhos mínimos com raiz em 
5. 


Prova Imediata pelo Teorema 24.6 e pela propriedade do subgrafo dos predecessores. 


Análise 

Qual é a rapidez do algoritmo de Dijkstra? Ele mantém a fila de prioridades mínimas O chamando três operações 
de filas de prioridades: Inserr (implícita na linha 3), Exrracr-Min (linha 5) e De-crease-Key (implícita em ReLax, que é 
chamada na linha 8). O algoritmo chama Insert e Exrracr-MiN uma vez por vértice. Como cada vértice u E V é 
adicionado ao conjunto S exatamente uma vez, cada aresta na lista de adjacências Adj[u] é examinada no laço for das 
linhas 7-8 exatamente uma vez durante o curso do algoritmo. Visto que o número total de arestas em todas as listas de 
adjacências é |E], esse laço for itera um total de |E| vezes e, assim, o algoritmo chama Decrease-Key no máximo [E] 
vezes no total. (Observe, mais uma vez, que estamos usando análise agregada.) 

O tempo de execução do algoritmo de Dijkstra depende de como implementamos a fila de prioridades mínimas. 
Considere primeiro o caso no qual mantemos a fila de prioridades mínimas aproveitando que os vértices são numerados 
de 1 a |V]. Simplesmente armazenamos v.d na vésima entrada de um arranjo. Cada operação Insert e Decrease-KEY 


demora o tempo O(1), e cada operação Exrracr-Min demora o tempo O(V) (já que temos de executar busca no arranjo 
inteiro), dando um tempo total O(V, + E) = O(V,). 

Se o grafo é suficientemente esparso — em particular, E = o(V,lg V) — podemos melhorar o algoritmo 
implementando a fila de prioridades mínimas com um heap de mínimo binário. (Como discutimos na Seção 6.5, a 
implementação deve garantir que os vértices e os elementos do heap correspondentes mantêm apontadores um para o 
outro.) Então, cada operação Exrracr-Mix demora o tempo O(lg VW. Como antes, há |V] dessas operações. O tempo 
para construir o heap de mínimo binário é O(V). Cada operação Decrease-Key demora o tempo O(lg V) e ainda há, no 
máximo, |E| dessas operações. Portanto, o tempo de execução total é O((V + E) lg V), que é O(E lg V) se todos os 
vértices podem ser alcançados da fonte. Esse tempo de execução é uma melhoria em relação ao tempo O(V,) de 
implementação direta se E = o(V,g V). 

Na verdade, podemos conseguir um tempo de execução O(V lg V + E) implementando a fila de prioridades 
mínimas com um heap de Fibonacci (veja o Capítulo 19). O custo amortizado de cada uma das |V] operações Exrracr- 
Min é O(lg V), e cada chamada Decrease-Key, cujo número máximo é |E|, demora apenas o tempo amortizado O(1). 
Historicamente, o desenvolvimento de heaps de Fibonacci foi motivado pela observação de que o algoritmo de 
Dijkstra, normalmente faz muito mais chamadas Decrease-Key que chamadas Exrracr-Min; portanto, qualquer método de 
redução do tempo amortizado de cada operação Decrease-Key para o(lg V) sem aumentar o tempo amortizado de 
Exrracr-Min produzirá uma implementação assintoticamente mais rápida do que a que utilize heaps binários. 

O algoritmo de Dijkstra é parecido com o algoritmo de busca em largura (veja a Seção 22.2) e também com o 
algoritmo de Prim para calcular árvores geradoras mínimas (veja a Seção 23.2). É semelhante à busca em largura no 
sentido de que o conjunto S corresponde ao conjunto de vértices pretos em uma busca em largura; exatamente como os 
vértices em S têm seus pesos finais de caminhos mínimos, os vértices pretos em uma busca em largura têm suas 
distâncias em largura corretas. O algoritmo de Dijkstra é semelhante ao algoritmo de Prim no sentido de que ambos 
usam uma fila de prioridades mínimas para encontrar o vértice “mais leve” fora de um conjunto dado (o conjunto S no 
algoritmo de Dijkstra e a árvore que está sendo desenvolvida no algoritmo de Prim), adicionam esse vértice ao conjunto 
e ajustam os pesos dos vértices restantes fora do conjunto de acordo com o resultado dessas operações. 


Exercícios 


24.3-1 Execute o algoritmo de Dijkstra para o grafo dirigido da Figura 24.2, primeiro usando o vértice s como fonte e 
depois usando o vértice z como fonte. No estilo da Figura 24.6, mostre os valores de d e p e os vértices no 
conjunto S após cada iteração do laço while. 


24.3-2 Dê um exemplo simples de grafo dirigido com arestas de peso negativo para o qual o algoritmo de Dijkstra 
produz respostas incorretas. Por que a prova do Teorema 24.6 não funciona quando são permitidas arestas 
de peso negativo? 


24.3-3 Suponha que mudemos a linha 4 do algoritmo de Dijkstra para o seguinte: 
4 while |0|> 1 


Essa mudança faz o laço while ser executado |V] — 1 vezes em lugar de |V vezes. Esse algoritmo proposto é 
correto? 


24.3-4 O professor Gaedel escreveu um programa que, diz ele, implementa o algoritmo de Dijkstra. O programa 
produz v.d e v.p para cada vértice v & V. Dê um algoritmo de tempo O(V + E) para verificar a saída do 
programa do professor. O algoritmo deve determinar se os atributos d e p são compatíveis com os de alguma 
árvore de caminhos mínimos. Suponha que todos os pesos de arestas são não negativos. 


24.3-5 O professor Newman acha que criou uma prova simples da correção do algoritmo para o algoritmo de 
Dijkstra. Diz ele que o algoritmo de Dijkstra relaxa as arestas de todos os caminhos mínimos no grafo na 
ordem em que eles aparecem no caminho e que, portanto, a propriedade de relaxamento de caminho se aplica 
a todos os vértices que podem ser alcançados da fonte. Mostre que o professor está enganado ao construir 
um grafo dirigido para o qual o algoritmo de Dijkstra poderia relaxar as arestas de uma caminho mínimo fora 
da ordem. 


24.3-6 "Temos um grafo dirigido G = (V, E) no qual cada aresta (u, v) € E tem um valor associado r(u, v), que é um 
número real na faixa O < r(u, v) < 1 que representa a confiabilidade de um canal de comunicação do vértice u 
ao vértice v. Interpretamos r(u, v) como a probabilidade de o canal de u a v não falhar e consideramos que 
essas probabilidades são independentes. Dê um algoritmo eficiente para encontrar o caminho mais confiável 
entre dois vértices dados. 


24.3-7 Seja G = (V, E) um grafo dirigido ponderado com função peso positivo w : E > (1,2,..., W: para algum 
inteiro positivo W, e suponha que não haja dois vértices que tenham os mesmos pesos de caminhos mínimos 
que partem do vértice de fonte s. Agora, suponha que definimos um grafo dirigido não ponderado Gº=(V U 
V”, E”) substituindo cada aresta (u, v) E E por w(u, v) arestas de peso unitário em série. Quantos vértices 
Gº tem? Suponha agora que executemos uma busca em largura em G”. Mostre que a ordem em que Gº pinta 
os vértices em V de preto na busca em largura é igual à ordem em que o algoritmo de Dijkstra extrai os 
vértices de V da fila de prioridades quando executado em G. 


24.3-8 X Seja G = (V, E) um grafo dirigido ponderado com função peso w não negativo : E — 40, 1,..., W) para 
algum inteiro não negativo W. Modifique o algoritmo de Dijkstra para calcular os caminhos mínimos que 
partem de determinado vértice de fonte s no tempo O(W V + E). 


24.3-9 % Modifique seu algoritmo do Exercício 24.38 para ser executado no tempo O((V + E) lg W). (Sugestão: 
Quantas estimativas distintas de caminhos mínimos podem existir em V — S em qualquer instante?) 


24.3-10 Suponha que tenhamos um grafo dirigido ponderado G = (V, E) no qual as arestas que saem do vértice fonte 
s podem ter pesos negativos, todos os outros pesos de arestas são não negativos e não existe nenhum ciclo de 
peso negativo. Demonstre que o algoritmo de Dijkstra encontra corretamente caminhos mínimos que partem 
de s nesse grafo. 


24.4 REsTRIÇÕES DE DIFERENÇA E CAMINHOS MÍNIMOS 


O Capítulo 29 estuda o problema geral de programação linear no qual desejamos otimizar uma função linear sujeita 
a um conjunto de desigualdades lineares. Nesta seção, investigaremos um caso especial de programação linear que 
reduzimos a encontrar caminhos mínimos que partem de uma única fonte. Então, podemos resolver o problema de 
caminhos mínimos de fonte única resultante executando o algoritmo de BellmanFord e, por consequência, resolvemos 
também o problema de programação linear. 


Programação linear 


No problema de programação linear geral, temos uma matriz m x n A, um vetor b de m elementos, e um vetor 


n 


| y o DC RR 
c de n elementos Desejamos encontrar um vetor x de n elementos que maximize a função objetivo i=1 1 + sujeita 
às m restrições dadas por 4x < b. 


Embora o algoritmo simplex focalizado no Capítulo 29 nem sempre seja executado em tempo polinomial em 
relação ao tamanho de sua entrada, há outros algoritmos de programação linear que são de tempo polinomial. 
Apresentamos aqui duas razões para entender a formulação de problemas de programação linear. A primeira é que, se 
soubermos que podemos expressar determinado problema como um problema de programação linear de tamanho 
polinomial, então temos imediatamente um algoritmo de tempo polinomial para resolver o problema. A segunda é que 
existem algoritmos mais rápidos para muitos casos especiais de programação linear. Por exemplo, o problema do 
caminho mínimo para um par (Exercício 24.44) e o problema de fluxo máximo (Exercício 26.15) são casos especiais de 
programação linear. 

Na realidade, às vezes, não nos importamos com a função objetivo; o que queremos é encontrar alguma solução 
viável, isto é, qualquer vetor x que satisfaça 4x < b ou determinar que não existe nenhuma solução viável. 
Focalizaremos um desses problemas de viabilidade. 


Sistemas de restrições de diferença 


Em um sistema de restrições de diferença, cada linha da matriz de programação linear 4 contém um 1 e um 1, 
e todas as outras entradas de 4 são O. Assim, as restrições dadas por 4x < b são um conjunto de m restrições de 
diferença que envolvem n incógnitas, no qual cada restrição é uma desigualdade linear simples da forma 
x.—-x.<b 
J i> ko 


ondel<ij<nel<k<gm. 


Por exemplo, considere o problema de encontrar um vetor de cinco elementos x = (x;) que satisfaz 
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Esse problema é equivalente a determmar valores para as incógnitas x ,, X,, X3, X,, Xs, que satisfaçam as seguintes 
oito restrições de diferença: 


Meus 0; (24.3) 
MAE ES (24.4) 
—6< 1, (24.5) 
HE O, (24.6) 
ea É (24.7) 
X=4,< =l, (24.8) 
=, S—3, (24.9) 
—%4 E —3. (24.10) 


Uma solução para esse problema é x = (—5, —3, 0,1, —4), como podemos verificar diretamente examinando cada 
desigualdade. Na verdade, esse problema tem mais de uma solução. Uma outra é xº = (0, 2, 5, 4, 1). Essas duas 
soluções estão relacionadas: cada componente de x” é cinco unidades maior que o componente correspondente de x. 
Esse fato não é mera coincidência. 


Lema 24.8 


Seja x = (x,, X,, --, X,) uma solução para um sistema 4x < b de restrições de diferença e seja d qualquer constante. 
Então, x+d=(x,+d,x,+d,...,x, + d) é também uma solução para Ax < b. 


Prova Para cada x, e x,, temos (x, + d) — (x, + d) = x, — x;. Assim, se x satisfaz Ax < Db, x + d também satisfaz essa 
desigualdade. 


Sistemas de restrições de diferença ocorrem em muitas aplicações diferentes. Por exemplo, as incógnitas x, podem 
ser os tempos em que certos eventos devem ocorrer. Cada restrição afirma que deve decorrer no mínimo certa 
quantidade de tempo ou no máximo certa quantidade de tempo entre dois eventos. Por exemplo, os eventos poderiam 
ser serviços que devem ser executados durante a montagem de um produto. Se aplicarmos no tempo x, um adesivo que 
demora duas horas para agir e tivermos de esperar essas duas horas para instalar uma peça no tempo x,, então temos a 
seguinte restrição: x, > x, + 2 ou, o que é equivalente, x, — x, < —2. Alternativamente, poderíamos determinar que a 
peça deve ser instalada depois da aplicação do adesivo, porém, em vez de de esperararmos as duas horas previstas até 
o adesivo agir, devemos esperar somente metade desse tempo. Nesse caso, obtemos o par de restrições x, x, e x, < 
x, + 1 ou, o que é equivalente, x, —-x,<0ex,—-x,<1. 


Grafos de restrições 


Podemos interpretar sistemas de restrições de diferença adotando um ponto de vista de teoria dos grafos. Em um 
sistema 4x < b de restrições de diferença, consideramos a matriz de programação linear 4 n x m como a transposta de 
uma matriz de incidência (veja o Exercício 22.17) para um grafo com vértices e m arestas. Cada vértice v, no grafo, 
para i= 1, 2,..., n, corresponde a uma das n variáveis incógnitas x,. Cada aresta dirigida no grafo corresponde a uma 
das m desigualdades que envolvem duas incógnitas. 

Utilizando uma linguagem mais formal, dado um sistema 4x < b de restrições de diferença, o grafo de restrição 
correspondente é um grafo dirigido ponderado G = (V, E), onde 


V=hO ses D) 


o Dad a n 


e 
E=((v, v):x;—x; < b, é uma restrição) 
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O grafo de restrições contém o vértice adicional v,, como veremos em breve, para garantir que o grafo terá algum 
vértice que pode alcançar todos os outros vértices. Assim, o conjunto de vértices V consiste em um vértice v, para cada 
incógnita x,, mais um vértice adicional v,. O conjunto de arestas E contém uma aresta para cada restrição de diferença 
mais uma aresta (v,, v;) para cada incógnita x,. Se x, — x; < b, é uma restrição de diferença, então o peso da aresta (v,, 
vj) é w(v; V;)) = b. O peso de cada aresta que sai de v, é 0. A Figura 24.8 mostra o grafo de restrição para o sistema 
(24.3)-(24.10) de restrições de diferença. 

O teorema a seguir mostra que podemos encontrar uma solução para um sistema de restrições de diferença 
determinando os pesos de caminhos mínimos no grafo de restrição correspondente. 


Teorema 24.9 


Dado um sistema 4x < b de restrições de diferença, seja G = (V, E) o grafo de restrição correspondente. Se G 
não contém nenhum ciclo de peso negativo, então 


x= (0,0). (05. 0,), 0,» Vo), -.., O(V9» 0,)) (24.11) 


é uma solução viável para o sistema. Se G contém um ciclo de peso negativo, não há solução viável para o sistema. 


Prova Primeiro mostramos que, se o grafo de restrição não contém nenhum ciclo de peso negativo, a equação (24.11) 
dá uma solução viável. Considere qualquer aresta (v;, v;)) & E. Pela desigualdade triangular, d(v5, V;) < d(Vo, V;)) + W(v; 
vV;) ou, o que é equivalente, d(vo, v;) - d(Vo, Vi) < w(v; V;). Assim, fazer x, = d(vo, V;) e x; = d(vo, v;) satisfaz a restrição 
de diferença x, — x, < w(v;, V;) que corresponde à aresta (v,, v;). 


Agora mostramos que, se o grafo de restrição contém um ciclo de peso negativo, o sistema de restrições de 
diferença não tem nenhuma solução viável. Sem prejuízo da generalidade, seja o ciclo de peso negativo c = (v,, V5, ..., 
vw, onde v, = v,. (O vértice v, não pode estar no ciclo c porque não tem nenhuma aresta de entrada.) O ciclo c 
corresponde às seguintes restrições de diferença: 


Es E WD): 


EE E Da): 


Figura 24.8 Grafo de restrição correspondente ao sistema (24.3)-(24.10) de restrições de diferença. O valor de d(v,, v, ) aparece em cada 
vértice vi. Uma solução viável para o sistema é x = (-5, -3, 0, -1, -4). 


Suponha que x tem uma solução que satisfaz cada uma dessas k desigualdades e então deduzimos uma contradição. A 
solução também deve satisfazer a desigualdade que resulta quando somamos as k desigualdades. Se somarmos os lados 
esquerdos, cada incógnita x, é somada uma vez e subtraída uma vez (lembre-se de que v, = v, implica x, = x,), de 
modo que o lado esquerdo da soma é 0. A soma dos valores do lado direito é w(c) e, assim, obtemos O < w(c). 
Porém, visto que c é um ciclo de peso negativo, w(c) < 0, obtemos a contradição O < w(c) < 0. 


Resolução de sistemas de restrições de diferença 


O Teorema 24.9 afirma que podemos usar o algoritmo de BellmanFord para resolver um sistema de restrições de 
diferenças. Como o grafo de restrição contém arestas que partem do vértice de fonte v, para todos os outros vértices, 
qualquer ciclo de peso negativo no grafo de restrição pode ser alcançado de v,. Se o algoritmo de BellmanFord retorna 
True, então os pesos dos caminhos mínimos dão uma solução viável para o sistema. Por exemplo, na Figura 24.8, os 
pesos de caminhos mínimos dão a solução viável x = (—5, —3, 0, —1, 4) e, pelo Lema 24.8, x = (d-5,d -3,d,d-1, 
d — 4) também é uma solução viável para qualquer constante d. Se o algoritmo de BellmanFord retorna Farse, não 
existe nenhuma solução viável para o sistema de restrições de diferença. 

Um sistema de restrições de diferença com m restrições para n incógnitas produz um grafo comn + 1 vértices e n 
+ m arestas. Assim, usando o algoritmo de Bellman-Ford, podemos resolver o sistema no tempo O((n + D(n + m)) = 
O(n, + nm). O Exercício 24.4-5 pede que você modifique o algoritmo para que seja executado no tempo O(nm), 


mesmo que m seja muito menor que n. 


Exercícios 


24.4-1 Encontre uma solução viável ou determine que não existe nenhuma solução viável para o seguinte sistema de 


restrições: 
Ee d 
x Mi, Sds 
EE 2 
É, — UE a 
= D, 
Kd & 10, 
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24.4-2 Encontre uma solução viável ou determine que não existe nenhuma solução viável para o seguinte sistema de 
restrições: 


24.4-3 


24.4-4 


24.4-5 


24.4-6 


24.4-7 


24.4-8 


24.4-9 
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Algum peso de caminho mínimo que parte do novo vértice v, em um grafo de restrição pode ser positivo? 
Explique. 


Expresse o problema do caminho mínimo para um par como um programa linear. 


Mostre como modificar ligeiramente o algoritmo de BellmanFord de modo que, ao usarmos esse algoritmo 
para resolver um sistema de restrições de diferença com m desigualdades para n incógnitas, o tempo de 
execução seja O(nm). 


Suponha que, além de um sistema de restrições de diferença, queiramos tratar restrições de igualdade da 
forma x, = x, + b,. Mostre como adaptar o algoritmo de BellmanFord para resolver essa variedade de sistema 
de restrição. 


Mostre como resolver um sistema de restrições de diferença por um algoritmo semelhante ao de BellmanFord 
em um grafo de restrição sem o vértice extra v,. 


* Seja 4x < b um sistema de m restrições de diferença para n incógnitas. Mostre que o algoritmo de 
n 


BellmanFord, quando executado para o grafo de restrição correspondente, maximiza Eme à sujeito a 4x 
<bex,<0 para todo x. 


* Mostre que o algoritmo de BellmanFord, quando executado para o grafo de restrição para um sistema 4x 
< b de restrições de diferença, minimiza a quantidade (max(x,; - minfx,+) sujeita a 4x < b. Explique como 
esse fato poderia vir a calhar se o algoritmo for usado para programar serviços de construção. 


24.4-10 Suponha que toda linha na matriz 4 de um programa linear 4x < b corresponda a uma restrição de diferença, 


a uma restrição de variável única da forma x, < b,, ou a uma restrição de variável única da forma —x, < b,. 
Mostre como o algoritmo de BellmanFord pode ser adaptado para resolver essa variedade de sistema de 
restrições. 


24.4-11 Dê um algoritmo eficiente para resolver um sistema 4x < b de restrições de diferença quando todos os 


elementos de b são valores reais e todas as incógnitas x, devem ser inteiros. 


24.4-12 XDê um algoritmo eficiente para resolver um sistema 4x < b de restrições de diferença quando todos os 


elementos de b são valores reais e um subconjunto especificado de algumas incógnitas x,, mas não 
necessariamente de todas, devem ser inteiros. 


24.5 PROVAS DE PROPRIEDADES DE CAMINHOS MÍNIMOS 


Em todo este capítulo, nossos argumentos de correção se basearam na desigualdade triangular, na propriedade do 
limite superior, na propriedade da imexistência de caminho, na propriedade de convergência, na propriedade de 
relaxamento de caminhos e na propriedade do subgrafo dos predecessores. Enunciamos essas propriedades sem 
proválas no início deste capítulo. Nesta seção, provamos cada uma delas. 


A desigualdade triangular 


Quando estudamos a busca em largura (Seção 22.2), provamos no Lema 22.1 uma propriedade simples de 
distâncias mais curtas em grafos não ponderados. A desigualdade triangular a seguir generaliza a propriedade para 
grafos ponderados. 


Lema 24.10 (Desigualdade triangular) 


Seja G = (V, E) um grafo dirigido ponderado com função peso w : E > e vértice fonte s. Então, para todas as arestas 
(u, v) E E, temos 


o(s, v) < O(s,u) + w(u,v). 


Prova Suponha que p seja um caminho mínimo da fonte s ao vértice v. Então, p não tem peso maior que qualquer outro 
caminho de s a v. Especificamente, o caminho p não tem peso maior que o caminho específico que segue um caminho 
mínimo da fonte s até o vértice u, e depois percorre a aresta (u, v). 


O Exercício 24.53 pede que você trate do caso em que não existe nenhum caminho mínimo de s a v. 


Efeitos do relaxamento sobre estimativas de caminhos mínimos 


O próximo grupo de lemas descreve como as estimativas de caminhos mínimos são afetadas quando executamos 
uma sequência de etapas de relaxamento nas arestas de um grafo dirigido ponderado que foi inicializado por InrmaLize- 


SINGLE-SOURCE. 


Lema 24.11 (Propriedade de limite superior) 


Seja G = (V, E) um grafo dirigido ponderado com função peso w:E — . Sejas E Vo vértice fonte e considere G 
inicializado por Inrmatize-Sincre-Source(G, s). Então, v.d > d(s, v) para todo v E V, e esse invariante é mantido para 
qualquer sequência de etapas de relaxamento nas arestas de G. Além disso, tão logo v.d alcance seu limite mferior d(s, 
v), nunca mais muda. 


Prova Provamos o invariante v.d > d(s, v) para todos os vértices v &€ V por indução em relação ao número de etapas 
de relaxamento. 


Para a base, v.d > d(s, v) é certamente verdadeiro após inicialização, já que v.d = co implica v.d > d(s, v) para 
todo v &E V- (st, já que s.d = 0 > d(s, s) (observe que d(s, s) = -oo, se s está em um ciclo de peso negativo, e 0, em 
caso contrário). 

Para o passo de indução, considere o relaxamento de uma aresta (u, v). Pela hipótese de indução, x.d > d(s, x) para 
todo x & V antes do relaxamento. O único valor d que pode mudar é v.d. Se ele 

mudar, temos 


vd=ud-+w(u,v) 
> 9(s,u) + w(u,v) (por hipótese de indução) 
> 6(s,v) (pela desigualdade triangular), 


e, portanto, o invariante é mantido. 


Para ver que o valor de v.d nunca muda depois que v.d = d(s, v), observe que, por ter alcançado seu limite inferior, v.d 
não pode diminur porque acabamos de mostrar que v.d > d(s, v), e não pode aumentar porque as etapas de 
relaxamento não aumentam valores de d. 


Corolário 24.12 (Propriedade da inexistência de caminho) 


Suponha que, em um grafo dirigido ponderado G = (V, E) com finção peso w : E — , nenhum caminho conecte o 
vértice fonte s E V a determinado vértice v E V. Então, depois que o grafo é inicializado por InmaLize-SincLE- 
Source(G, s), temos v.d = d(s, v) = 0, e essa igualdade é mantida como um invariante para qualquer sequência de 
etapas de relaxamento nas arestas de G. 


Prova Pela propriedade de limite superior, temos sempre co = d(s, v) < v.d e, portanto, v.d = 0 = d(s, v). 


Lema 24.13 


Seja G = (V, E) um grafo dirigido ponderado com função peso w :E — eseja (u, v) E E. Então, imediatamente após 
relaxar a aresta (u, v) pela execução de Rerax(u, v, w), temos v.d <u.d + w(u, v). 


Prova Se, imediatamente antes de relaxar a aresta (u, v), temos v.d > u.d + w(u, v), então v.d = u.d + w(u, v) daí em 
diante. Se, em vez disso, v.d < u.d + w(u, v) imediatamente antes do relaxamento, então nem d[u] nem d[v] se alteram 
e, assim, v.d< u.d + w(u, v) daí em diante. 


Lema 24.14 (Propriedade de convergência) 


Seja G = (V, E) um grafo dirigido ponderado com função peso w :E — , sejas E Vum vértice de fonte, e seja su — 
v um caminho mínimo em G para alguns vértices u, v € V. Suponha que G seja inicializado por InmaLize-SincLE- 
Source(G, s) e depois uma sequência de etapas de relaxamento que inclua a chamada Rerax(u, v, w) é executada para 
as arestas de G. Se u.d = d(s, u) em qualquer tempo anterior à chamada, então u.d = d(s, v) em todos os tempos após 
a chamada. 


Prova Pela propriedade do limite superior, se u.d = d(s, u) em algum ponto antes do relaxamento da aresta (u, v), 
então essa igualdade se mantém válida daí em diante. Em particular, após o relaxamento da aresta (u, v), temos 


vd <u.d+w(u,v) (pelo Lema 24.13) 
= O(s, u) + w(u,v) 
= O(s, v) (pelo Lema 24.1). 


Pela propriedade do limite superior, v.d > d(s, v), da qual concluímos que v.d = d(s, v), e essa igualdade é mantida daí 
em diante. 


Lema 24.15 (Propriedade de relaxamento de caminho) 

Seja G = (V, E) um grafo dirigido ponderado com função peso w :E — esejas € Vum vértice de fonte. Considere 
qualquer caminho mínimo p = (vo, V,, ..., Vy) des = vy à v,. Se G é inicializado por InmaLize-SincLe-Source(G, s) € 
depois ocorre uma sequência de etapas de relaxamento que inclui, pela ordem, relaxar as arestas (Vo, VD), (4 V5), ..., 


(vil, v,), então v,.d = d(s, v,) depois desses relaxamentos e todas as vezes daí em diante. Essa propriedade se 
mantém válida, não importando quais outros relaxamentos de arestas ocorram, inclusive relaxamentos entremeados com 
relaxamentos das arestas de p. 


Prova Mostramos por indução que depois que a iésima aresta do caminho p é relaxada, temos v..d = d(s, v;). Para a 
base, i = 0, e, antes que quaisquer arestas de p tenham sido relaxadas, temos pela inicialização que vo.d = s.d = O = 
d(s, s). Pela propriedade do limite superior, o valor de d[s] nunca muda após a inicialização. 

Para o passo de indução, supomos que v; - .d = d(s, v; - 1) e examinamos o que acontece quando relaxamos a aresta 
(v; - 1, v;). Pela propriedade de convergência, após o relaxamento dessa aresta, temos v..d = d(s, v;), e essa igualdade 
é mantida todas as vezes depois disso. 


Relaxamento e árvores de caminhos mínimos 


Agora mostramos que, tão logo uma sequência de relaxamentos tenha provocado a convergência de estimativas de 
caminhos mínimos para pesos de caminhos mínimos, o subgrafo predecessor Gp induzido pelos valores de p resultantes 
é uma árvore de caminhos mínimos para G. Começamos com o lema a seguir, que mostra que o subgrafo dos 
predecessores sempre forma uma árvore enraizada cuja raiz é a fonte. 


Lema 24.16 


Seja G = (V, E) um grafo dirigido ponderado com função peso w : E > , sejas € V um vértice de fonte e 
suponha que G não contenha nenhum ciclo de peso negativo que possa ser alcançado de s. Então, depois que o grafo é 
inicializado por InmaLize-SincLe-Source(G, s), O subgrafo dos predecessores Gp forma uma árvore enraizada com raiz s, 
e qualquer sequência de etapas de relaxamento em arestas de G mantém essa propriedade como um invariante. 


Prova Inicialmente, o único vértice em Gp é o vértice de fonte, e o lema é trivialmente verdadeiro. Considere um 
subgrafo dos predecessores Gp que surja após uma sequência de etapas de relaxamento. Primeiro, provaremos que Gp 
é acíclico. Suponha, por contradição, que alguma etapa de relaxamento crie um ciclo no grafo Gp. Seja c = (Vo, Vj, ... 
vp o ciclo onde v, = v,. Então, vp =v,- 1 parai= 1,2, ..., k e, sem prejuízo da generalidade, podemos supor que o 
relaxamento da aresta (v,-!, v,) criou o ciclo em Gp. 


Afirmamos que todos os vértices no ciclo c podem ser alcançados da fonte s. Por quê? Cada vértice em c tem um 
predecessor não nr; portanto, uma estimativa de caminho mínimo finito foi atribuída a cada vértice c quando lhe foi 
atribuído seu valor p não nm. Pela propriedade do limite superior, cada vértice no ciclo c tem um peso de caminho 
mínimo finito, o que implica que ele pode ser alcançado de s. 


Examinaremos as estimativas de caminhos mínimos em c imediatamente antes da chamada ReLax(v, - 1, Vo W) € 
mostraremos que c é um ciclo de peso negativo, contradizendo assim a hipótese de que G não contém nenhum ciclo de 
peso negativo que possa ser alcançado da fonte. Imediatamente antes da chamada, temos v,.p=v,-! parai=1,2,... 
k — 1. Assim, para i = 1,2,...,k—l, a última atualização para v,.d foi feita pela atribuição v..d = v,- ld + w(v,- 1, v)). 
Se v; - !.d mudou desde então, ela dimmuim. Por essa razão, imediatamente antes da chamada a ReLax(V, - 1, Vi W), 
temos 

vao duo 0) para todo ?= 1,2, sk 1. (24.12) 


i-pPoi 
Como v,.p é alterado pela chamada, imediatamente antes temos também a desigualdade estrita 


UA HO d+ DO. ql) 


Somando essa desigualdade estrita com as k — 1 desigualdades (24.12), obtemos a soma das estimativas dos 
caminhos mínimos em torno do ciclo c: 


k 
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Figura 24.9 A figura mostra que um caminho simples em G, da fonte s ao vértice v é único. Se houvesse dois caminhos p, (s u x > v) 
ep(su y>z v),ondexzy,entãozp=xez.p=y,uma contradição. 


Mas, 

k k 
> ud=> md, 
i=1 i=1 


já que cada vértice no ciclo c aparece exatamente uma vez em cada somatório. Essa igualdade implica 


k 
0>> u(v, 0). 
=i 


Assim, a soma dos pesos em torno do ciclo c é negativa, o que dá a contradição desejada. 

Agora já provamos que Gp é um grafo acíclico dirigido. Para mostrar que ele forma uma árvore enraizada com raiz 
s, basta provar (veja o Exercício B.5-2) que, para cada vértice v & Vp, há um único caminho simples de s a v em Go. 

Primeiro, devemos mostrar que existe um caminho de s a cada vértice em Vp. Os vértices em Vp são os que têm 
valores p não NIL mais s. Aqui, a ideia é provar por indução que existe um caminho de s a todos os vértices em Vp. Os 
detalhes ficam para o Exercício 24.56. 


Para concluir a prova do lema, devemos mostrar agora que, para qualquer vértice v & Vp, o grafo Gp contém no 
máximo um caminho simples de s a v. Suponha o contrário. Isto é, suponha que, como mostra a Figura 24.9, Gp 
contenha dois caminhos simples de s a algum vértice v.p,, que decompomos em s u x — z v, e p,, que decompomos 
emsuy—zv, onde x £y se bem que u poderia ser s e z poderia ser v). Mas, então, z.p =x e Z.p = y, O que implica 
a contradição x = y. Concluímos que Gp contém um caminho simples único de s a v e, assim, Gp forma uma árvore 
enraizada com raiz s. 


Agora podemos mostrar que, se depois de executarmos uma sequência de etapas de relaxamento todos os vértices 
tiverem recebido a atribuição de seus pesos de caminhos mínimos verdadeiros, o subgrafo dos predecessores Gp será 


uma árvore de caminhos mínimos. 


Lema 24.17 (Propriedade do subgrafos predecessores) 


Seja G = (V, E) um grafo dirigido ponderado com função peso w :E — , sejas € Vum vértice fonte, e suponha que 
G não contenha nenhum ciclo de peso negativo que possa ser alcançado de s. Vamos chamar InrmiaLize-SinorE-Source(G, 
s) e depois executar qualquer sequência de etapas de relaxamento para arestas de G que produza v.d = d(s, v) para 
todo v E V. Então, o subgrafo predecessor Gp é uma árvore de caminhos mínimos com raiz em s. 


Prova Devemos provar que as três propriedades de árvores de caminhos mínimos dadas na página 647 são válidas 
para Gp. Para ilustrar a primeira propriedade, devemos mostrar que V, é o conjunto de vértices que pode ser alcançado 
de s. Por definição, um peso de caminho mínimo d(s, v) é finito se e somente se v pode ser alcançado de s e, portanto, 
os vértices que podem ser alcançados de s são exatamente aqueles que têm valores de d finos. Porém, um vértice v & 
V — fs) recebeu a atribuição de um valor finito para v.d se e somente se v.p £ nn. Assim, os vértices em Vp são 
exatamente aqueles que podem ser alcançados de s. 


A segunda propriedade decorre diretamente do Lema 24.16. 

Portanto, resta provar a última propriedade de árvores de caminhos mínimos: para cada vértice v & Vp, o único 
caminho simples s v em Gp é um caminho mínimo de s a v em G. Seja p = (Vo, V4, -.., Vy), onde vy= se v,=v. Para i = 
1,2,..., k, temos v.d = d(s, v;) e também v..d > v, -1.d + w(v, - 1, v), do que concluímos w(v, - 1, v)< d(s, v) — ds, 
v;- 1). A soma dos pesos ao longo do caminho p produz 


=O(s,0,)—O(s,0,) (porque a soma é telescópica) 
= 6(5,0,) (porque ó(s,v,) = ó(s,s) = 0). 


Assim, w(p) < d(s, v,). Visto que d(s, v,) é um limite inferior para o peso de qualquer caminho de s a v,, concluímos 
que w(p) = d(s, v,) e, portanto, p é um caminho mínimo de s a v = v,. 


Exercícios 
24.5-1 Dê duas árvores de caminhos mínimos para o grafo dirigido da Figura 24.2, além das duas mostradas. 


24.5-2 Dê um exemplo de grafo dirigido ponderado G = (V, E) com função peso w :E — e vértice fonte s tal que G 
satisfaça a seguinte propriedade: para toda aresta (u, v) E E existe uma árvore de caminhos mínimos com 
raiz em s que contém (u, v) e outra árvore de caminhos mínimos com raiz em s que não contém (u, v). 


24.5-3 Aperfeiçoe a prova do Lema 24.10 para tratar de casos nos quais os pesos de caminhos mínimos são co ou - 
00, 


24.5-4 Seja G = (V, E) um grafo dirigido ponderado com vértice fonte s e suponha G inicializado por InrriaLize-SingLE- 
Source(G, s). Prove que, se uma sequência de etapas de relaxamento define s.p com um valor não nr, então 
G contém um ciclo de peso negativo. 


24.5-5 


24.5-6 


24.5-7 


24.5-8 


Seja G = (V, E) um grafo dirigido ponderado sem arestas de peso negativo. Seja s E Vo vértice fonte e 
suponha que permitimos que v.p seja o predecessor de v em algum caminho mínimo de v até a fonte s se v 
E V- fs; puder ser alcançado de s, e nr em caso contrário. Dê um exemplo de tal grafo G e de uma 
atribuição de valores de p que produza um ciclo em Gp. (Pelo Lema 24.16, tal atribuição não pode ser 
produzida por uma sequência de etapas de relaxamento.) 


Seja G = (V, E) um grafo dirigido ponderado com função peso w : E — e sem ciclos de peso negativo. Seja 
s € Vo vértice fonte e suponha G inicializado por InmaLize-SincLe- Source(G, s). Prove que, para todo vértice 
v € V,, existe um caminho de s a v em Gp e que essa propriedade é mantida como um invariante para 
qualquer sequência de relaxamentos. 


Seja G = (V, E) um grafo dirigido ponderado que não contém nenhum ciclo de peso negativo. Sejas E Vo 
vértice fonte e suponha G inicializado por InmaLize-Sincre-Source(G, s). Prove que existe uma sequência de |V] 
— 1 etapas de relaxamento que produz v.d = d(s, v) para todo v E V. 


Seja G um grafo dirigido ponderado arbitrário com um ciclo de peso negativo que pode ser alcançado do 
vértice de fonte s. Mostre como construir uma sequência infinita de relaxamentos das arestas de G tal que 
todo relaxamento provoque mudança em uma estimativa de caminho mínimo. 


Problemas 


24-1 


24-2 


Aperfeiçoamento de Yen para BellmanFord 


Suponha que ordenamos os relaxamentos de arestas em cada passagem do algoritmo de BellmanFord da 
seguinte maneira: antes da primeira passagem atribuímos uma ordem linear arbitrária v,, v,, ..., V|/ aos vértices 
do grafo de entrada G = (V, E). Então, particionamos o conjunto de arestas E em E;U E,, onde E = ((v, vj) 
E E:i<jjek,=i(v,v) € E:i>;s. (Suponha que G não contenha nenhum laço, de modo que toda 
aresta está em E ouem E,.) Defina G;— (V, Ee G,=(V, E,). 


a. Prove que Gré acíclico com ordenação topológica (vi, v>, ..., vw) e que G» é acíclico com ordenação 
topológica (vm, Vin-1..., V1). 


Suponha que implementemos cada passagem do algoritmo de BellmanFord da maneira descrita a seguir. 
Visitamos cada vértice na ordem v,, V,, ..., Vivp relaxando as arestas de E, que partem do vértice. Então, 
visitamos cada vértice na ordem vv, Vjy |, ..., V1, relaxando as arestas de E, que partem do vértice. 


b. Prove que, com esse esquema, se G não contém nenhum ciclo de peso negativo que possa ser alcançado 
do vértice de fonte s, então, depois de apenas |V|/2 passagens pelas arestas, v.d = d(s, v) para todos os 
vértices v E V. 


c. Esse esquema melhora o tempo de execução assintótico do algoritmo de BellmanFord? 
Aninhamento de caixas 


Uma caixa com d dimensões (x,, x,, ..., x4) se aninha dentro de outra caixa com dimensões (y,, Y», ..., Ya) SE 
existe uma permutação p para (1,2, ..., d) tal que xp < y, xp <9Y,, ..., xp(D) <Vy. 


a. Demonstre que a relação de aninhamento é transiítiva. 


24-3 


24-4 


b. Descreva um método eficiente para determinar se uma caixa com d dimensões se aninha ou não dentro 
de outra. 


c. Suponha que você recebeu um conjunto de n caixas com d dimensões (Bi, B», ..., B:). Dê um algoritmo 
eficiente para determinar a sequência mais longa de (B;,, B:,, ..., Bw ) caixas tal que B;, fique aninhada 


dentro de B;,., para = 1, 2,..., k — 1. Expresse o tempo de execução do seu algoritmo em termos de n 
ed. 


Arbitragem 


A arbitragem é a utilização de discrepâncias em taxas de câmbio para transformar uma unidade de uma 
moeda em mais de uma unidade da mesma moeda. Por exemplo, suponha que 1 dólar americano compre 49 
rupias indianas. Uma rupia indiana compra dois ienes japoneses, e um iene japonês compra 0,0107 dólar 
americano. Então, convertendo moedas, um comerciante pode começar com um dólar americano e comprar 
49 - 2 - 0,0107 = 1,0486 dólar americano, obtendo assim um lucro de 4,86%. 


Suponha que recebemos n moedas c,, c,, ..., c, e uma tabela Rn x n de taxas de câmbio, tal que uma 
unidade da moeda c, compre R[i, j] unidades da moeda c,. 


a. Dê um algoritmo eficiente para determinar se existe ou não uma sequência de moedas (c;,, Ci», ...,cu) tal 
que 


Rlio ij) x Rli ij]... Ri i]xRli]> 1. 


Analise o tempo de execução do seu algoritmo. 


b. Dê um algoritmo eficiente para imprimir tal sequência, se ela existrr. Analise o tempo de execução do seu 
algoritmo. 


Algoritmo de mudança de escala de Gabow para caminhos mínimos de fonte única 


O algoritmo de mudança de escala resolve um problema considerando inicialmente apenas o bit de ordem 
mais alta de cada valor de entrada relevante (como um peso de aresta). Em seguida, refina a solução inicial 
observando os dois bits de ordem mais alta. Prossegue examinado cada vez mais bits de ordem mais alta e 
refinando a solução toda vez, até ter examinado todos os bits e calculado a solução correta. 


Nesse problema, examinamos um algoritmo para calcular os caminhos mínimos de uma fonte única por 
escalonamento de pesos de arestas. Temos um grafo dirigido G = (V, E) com pesos de arestas inteiros não 
negativos w. Seja W = max(u, )EE fw(u, v)+. Nossa meta é desenvolver um algoritmo que seja executado 
no tempo O(E lg W). Supomos que todos os vértices podem ser alcançados da fonte. 


O algoritmo descobre os bits na representação binária dos pesos de arestas um por vez, desde o bit mais 
significativo até o bit menos significativo. Especificamente, seja k = le(W + 1) o múmero de bits na 
representação binária de We, para i= 1,2,..., k, seja w(u, v) = w(u, v)/2k- i. Isto é, w(u, v) é a versão em 
“escala reduzida” de w(u, v) dada pelos i bits mais significativos de w(u, v). (Assim, wu, v) = w(u, v) para 
todo (u, v) E E.) Por exemplo, se k = 5 e w(u, v) = 25, cuja representação binária é (11001), então w;(u, 
v) = (110) = 6. Como outro exemplo com k = 5, se w(u, v) = (00100) = 4, então w;(u, v) = (001) = 1. 
Vamos definir di(u, v) como o peso do caminho mínimo do vértice u ao vértice v utilizando a função peso w.. 
Assim, dk(u, v) = d(u, v) para todo u, v & V. Para dado vértice fonte s, o algoritmo de escalonamento 
calcula primeiro os pesos de caminhos mínimos d!(s, v) para todo v & V, depois calcula d2(s, v) para todo v 
E V, e assim por diante, até calcular dk(s, v) para todo v & V. Supomos em todo esse processo que |E| > 


24-5 


[V| — 1, e veremos que o cálculo de di por di - 1 demora o tempo O(E), de modo que o algoritmo inteiro 
demora o tempo O(kE) = O(E lg W). 


a. Suponha que, para todos os vértices v & V, temos d(s, v) < |E]. Mostre que podemos calcular d(s, v) 
para todo v & Vno tempo O(E). 


b. Mostre que podemos calcular di(s, v) para todo v &E Vno tempo O(E). 
Agora, vamos focalizar o cálculo de d; a partir de d; - 1. 


c. Prove que, para i=2,3,..., k, temos wi(u, v) = 2w:- i(u, v) ou wu, v) = 2w:- i(u, v) + 1. Em seguida, 
prove que 


20, (sv)<ô0(s,v0)<20, (sv)+I|V|-1 
para todo v E V. 
d Defina, parai=2,3,...,k e para todo (u, v) E E, 
vw, (u,v)=w(u,v) +26, (s,u) — 28, ((s,0). 


Prove que, parai=2,3,...,ketodou,v € V, o valor “reponderado” (u, v) da aresta (u, v) é um 
inteiro não negativo. 


e. Agora, defina 6” ; (s, v) como o peso do caminho mínimo de s a v usando a função peso w” ;. Prove que, 


parai=2,3,...,ketodov E V, 


Aa 


ô(s,v)=ô(s,v) +20, (s,U) 


i 
e que 6” (s, v) < |E]. 


f' Mostre como calcular di(s, v) a partir de d; - à(s, v) para todo v &E V no tempo O(E) e conclua que 
podemos calcular a(s, v) para todo v &E Vno tempo O(E lg W). 


Algoritmo do ciclo de peso médio mínimo de Karp 


Seja G = (V, E) um grafo dirigido com função peso w:E — esejan=[|V]. Definimos o peso médio de um 
ciclo c = (e,, é», ..., e, de arestas em E como 


no)= DI) 


Seja m* = minc m(c), onde c varia em todos os ciclos dirigidos em G. Denominamos ciclo de peso médio 
mínimo um ciclo c para o qual m(c) = m*. Este problema investiga um algoritmo eficiente para cálculo de 
m*. 


Suponha, sem prejuízo da generalidade, que todo vértice v & V pode ser alcançado de um vértice fonte s & 
V. Seja d(s, v) o peso de um caminho mínimo de s a v e seja dk(s, v) o peso de um caminho mínimo de s a v 
consistindo em exatamente k arestas. Se não existe nenhum caminho de s a v com exatamente k arestas, 
então dk(s, v) = 00. 


a. Mostre que, se m* = 0, G não contém nenhum ciclo de peso negativo e d(s, v)= min <+< -19K(s, v) 
para todos os vértices v E V. 


b. Mostre que, se m* = 0, então 


max ô,(s, v)— ô,(5,0) >0 
O<k<n— n—k o 
para todos os vértices v E V (Sugestão: Use ambas as propriedades da parte (a).) 


c. Seja c um ciclo de peso 0, e sejam u e v quaisquer dois vértices em c. Suponha que m* = 0 e que o peso 
do caminho simples de u a v ao longo do ciclo seja x. Prove que d(s, v) = d(s, u) + x. (Sugestão: O 
peso do caminho simples de v a u ao longo do ciclo é -x.) 


d. Mostre que, se m* = 0, então em cada ciclo de peso médio mínimo existe um vértice v tal que 


ô (sv)-ô (s,u 
e ASAS) 


O<k<n—1 n— k 


(Sugestão: Mostre como estender um caminho mínimo até qualquer vértice em um ciclo de peso médio 
mínimo ao longo do ciclo para formar um caminho mínimo até o próximo vértice no ciclo.) 


e. Mostre que, se m* = 0, então 


ô (s,v)-ô (s,0) 
min max = K = (0 
veV O<k<n—1 n— k 


fi Mostre que, se adicionarmos uma constante t ao peso de cada aresta de G, m* aumenta de t. Use esse 
fato para mostrar que 


AN ô(s,0)—ô,(s,0) 
di veV O<k<n-1 n— K , 


g. Dê um algoritmo de tempo O(V E) para calcular m*. 
24-6 Caminhos mínimos bitônicos 


Uma sequência é hitônica se cresce monotonicamente e depois decresce monotonicamente ou se, por um 
deslocamento circular, cresce monotonicamente e depois decresce monotonicamente. Por exemplo, as 
sequências (1, 4, 6, 8, 3, —2), (9, 2, 4, —10, 5) e (1,2, 3, 4) são bitônicas, mas (1, 3, 12, 4,2, 10) não é 
bitônica. (Veja o Problema 15-3, que aborda o problema do caixeiro-viajante euclidiano bitônico.) 


Suponha que tenhamos um grafo dirigido G = (V, E) com função peso w : E — onde todos os pesos de 
arestas são únicos e desejamos encontrar caminhos mínimos de fonte única que parta m de um vértice de fonte 
s. Temos uma informação adicional: para cada vértice v E V, os pesos das arestas ao longo de qualquer 
caminho mínimo de s a v formam uma sequência bitônica. 


Dê o algoritmo mais eficiente que puder para resolver esse problema e analise seu tempo de execução. 


NorTas DO CAPÍTULO 


O algoritmo de Dijkstra [88] surgiu em 1959, mas não fazia nenhuma menção a uma fila de prioridades. O 
algoritmo de BellmanFord se baseia em algoritmos separados criados por Bellman [38] e Ford [109]. Bellman descreve 
a relação entre caminhos mínimos e restrições de diferença. Lawler [224] descreve o algoritmo de tempo linear para 
caminhos mínimos em um gad, que ele considera parte do folclore. 

Quando os pesos de arestas são inteiros não negativos relativamente pequenos, temos algoritmos mais eficientes 
para resolver o problema de caminhos mínimos de fonte única. A sequência de valores devolvidos pelas chamadas 
Exrracr-Min no algoritmo de Dijkstra cresce monotonicamente com o tempo. Como discutimos nas notas do Capítulo 6, 
nesse caso existem várias estruturas de dados que podem implementar as várias operações de filas de prioridades com 
mais eficiência que um heap binário ou um heap de Fibonacci. Ahuja, Mehlhorn, Orlmn e Tarjan [8] dão um algoritmo 
que é executado no tempo O(E +V NlsW) para grafos com pesos de arestas não negativos, onde W é o maior peso de 
qualquer aresta no grafo. Os melhores limites são dados por Thorup [337], que dá um algoritmo que é executado no 
tempo O(E lg lg V), e por Raman [291], que dá um algoritmo que é executado no tempo O(E + V mn (le V)13+e, (lg 
W)l/4+e 1). Esses dois algoritmos usam uma quantidade de espaço que depende do tamanho da palavra da máquina 
subjacente. Embora a quantidade de espaço utilizada possa ser ilimitada no que se refere ao tamanho da entrada, ela 
pode ser reduzida a linear em relação ao tamanho da entrada com a utilização de hashing aleatorizado. 

Para grafos não dirigidos com pesos inteiros, Thorup [336] dá um algoritmo de tempo O(V + E) para caminhos 
mínimos de fonte única. Ao contrário dos algoritmos mencionados no parágrafo anterior, esse algoritmo não é uma 
implementação do algoritmo de Dijkstra, já que a sequência de valores retornados por chamadas Exrracr-Min não 
cresce monotonicamente com o tempo. 

Para grafos com pesos de arestas negativos, um algoritmo criado por Gabow e Tarjan [122] é executado no tempo 
O(VE Ig(V W)), e um outro criado por Goldberg [137] é executado no tempo O(NV E lg W), onde W = max(u, EE 
tuv(u, vol. 

Cherkassky, Goldberg e Radzik 64 realizaram extensivos experimentos comparando vários algoritmos de caminhos 
mínimos. 


1 Pode parecer estranho que o termo “relaxamento” seja usado para uma operação que restringe um limite superior. O uso do termo é 
histórico. A saída de uma etapa de relaxamento pode ser vista como um relaxamento da restrição vd < u.d + w(u, v) que, pela 
desigualdade triangular (Lema 24.10), deve ser satisfeita se u.d = d(s, u) e vd = d(s, v). Isto é, se vd< u.d + w(u, v), não há nenhuma 
“pressão” para satisfazer essa restrição e, assim, a restrição é “relaxada”. 

2“PERT” é um acrônimo para “program evaluation and review technique” (técnica de avaliação e revisão de programação). 


(CAMINHOS MÍNIMOS ENTRE TODOS OS 
PARES 


Neste capítulo, consideraremos o problema de encontrar caminhos mínimos entre todos os pares de vértices em 
um grafo. Esse problema poderia surgir na elaboração de uma tabela de distâncias entre todos os pares de cidades em 
um atlas rodoviário. Como no Capítulo 24, temos um grafo orientado ponderado G = (V, E) com uma função peso w : 
E — — que mapeia arestas para pesos de valores reais. Desejamos encontrar, para todos os pares de vértices u, v € 
V, um caminho mínimo (de peso mínimo) de u a v, onde o peso de um caminho é a soma dos pesos das arestas que o 
constituem. Normalmente, queremos a saída em forma tabular: a entrada na linha de w e na coluna de v deve ser o peso 
de um caminho mínimo de u a v. 

Podemos resolver um problema de caminhos mínimos para todos os pares executando um algoritmo de caminhos 
mínimos de fonte única |V] vezes, cada uma dessas vezes considerando um vértice como fonte. Se todos os pesos de 
arestas são não negativos, podemos usar o algoritmo de Dijkstra. Se usarmos a implementação da fila de prioridade 
mínima por arranjo linear, o tempo de execução será O(V, + V E) = O(V,). A implementação da fila de prioridade 
mínima por heap binário mínimo produz um tempo de execução O(V E lg V), que é uma melhoria se o grafo é esparso. 
Como alternativa, podemos implementar a fila de prioridade mínima com um heap de Fibonacci o que produz um 
tempo de execução O(V, lg V + VE). 

Se o grafo tiver arestas de peso negativo não podemos usar o algoritmo de Dijkstra. Em vez disso, temos de 
executar o algoritmo de Bellman-Ford, mais lento, uma vez para cada vértice. O tempo de execução resultante é 
O(V,E) que, em um grafo denso, é O(V,). Neste capítulo, veremos como podemos obter resultados melhores. Também 
investigaremos a relação entre o problema de caminhos mínimos para todos os pares e a multiplicação de matrizes, e 
estudaremos sua estrutura algébrica. 

Diferentemente dos algoritmos de fonte única, que consideram uma representação do grafo por lista de 
adjacências, a maioria dos algoritmos neste capítulo utiliza uma representação por matriz de adjacências. (O algoritmo 
de Johnson para grafos esparsos, na Seção 25.3, usa listas de adjacências.) Por conveniência, suporemos que os 
vértices estão numerados como 1, 2, ..., |], de modo que a entrada é uma matriz n x n W que representa os pesos de 
arestas de um grafo dirigido de n vértices G = (V, E). Isto é, W = (w,), onde 


0 sei = j, 
w, = j0 peso da aresta dirigida (i,j) sei=je(i,jJeE, 
00 sei=je(i,))g E. (25.1) 


Permitimos arestas de peso negativo, mas por enquanto supomos que o grafo de entrada não contém nenhum ciclo 
de peso negativo. 

A saída tabular dos algoritmos de caminhos mínimos para todos os pares apresentados neste capítulo é uma matriz 
nxnD= (d,), onde a entrada d, contém o peso de um caminho mínimo do vértice i ao vértice j. Isto é, se d(i, j) 
representa o peso do caminho mínimo do vértice i ao vértice j (como no Capítulo 24), então d, = d(i, ;) no término. 


Para resolver o problema de caminhos mínimos para todos os pares para uma matriz de adjacências de entrada, 
precisamos calcular não só os pesos de caminhos mínimos, mas também uma matriz de predecessores P = (pij), onde 
pi é nn. se i=j ou se não existe nenhum caminho de i a j e, caso contrário, p,; é o predecessor de j em um caminho 
mínimo que parte de i. Exatamente como o subgrafo dos predecessores Gp do Capítulo 24 é uma árvore de caminhos 
mínimos para um dado vértice fonte, o subgrafo induzido pela i-ésima linha da matriz P deve ser uma árvore de 
caminhos mínimos com raiz i. Para cada vértice i E V, definimos o subgrafo dos predecessores de G para i como Gy, 
i=(Vp, i, Ep, ?), onde 


T;1 


Va=eV:m,=nIU ti) 


e 
E= Um D:jev,— ti. 


Se Gp, ' é uma árvore de caminhos mínimos, então o procedimento a segurr, que é uma versão modificada do 
procedimento Prinr-Parn do Capítulo 22, imprime um caminho mínimo do vértice i ao vértice j. 


PrINT-ALL-PAIRS-SHORTEST-PATH (II, 1, j) 
Hi=) 
print i 
else if Tj == NIL 
print “não existe nenhum caminho de ” |” para ” j 
else PRINT-ALL-PAIRS-SHORTEST-PATH(IT, í, Tj) 
print j 


OS MR QOMNmA 


Para destacar as características essenciais dos algoritmos para todos os pares neste capítulo, não dedicaremos 
tanta atenção e espaço à criação e às propriedades de matrizes de predecessores quanto dedicamos aos subgrafos dos 
predecessores no Capítulo 24. Alguns dos exercícios abordam os aspectos básicos. 


Esboço do capítulo 


A Seção 25.1 apresenta um algoritmo de programação dinâmica baseado em multiplicação de matrizes para 
resolver o problema de caminhos mínimos para todos os pares. Usando a técnica de “elevação ao quadrado repetida”, 
podemos conseguir um tempo de execução Q(V, lg V). A Seção 25.2 dá um outro algoritmo de programação dinâmica, 
o algoritmo de Floyd-Warshall, que é executado no tempo Q(V,). A Seção 25.2 aborda também o problema de 
encontrar o fecho transitivo de um grafo dirigido, que está relacionado com o problema de caminhos mínimos para 
todos os pares. Finalmente, a Seção 25.3 apresenta o algoritmo de Johnson, que resolve o problema dos caminhos 
mínimos para todos os pares no tempo O(V, lg V+ V E) e é uma boa escolha para grafos grandes e esparsos. 

Antes de prosseguir, precisamos estabelecer algumas convenções para representações por matrizes de 
adjacências. Em primeiro lugar, em geral, suporemos que o grafo de entrada G = (V, E) temn vértices, de modo que n 
= |V]. Em segundo lugar, usaremos a convenção de denotar matrizes por letras maiúsculas, como W, L ou D, e seus 
elementos individuais por letras minúsculas indexadas, como w;, /; ou d;. Algumas matrizes terão índices entre 

(1º) a) | 
parênteses, como em Lr)= 1º / ou Dg)=*1 7, para indicar iterados. Por fim, para uma matriz n x n 4 dada, 
supomos que o valor de n está armazenado no atributo A.linhas. 


25.1 (CCaminHos MÍNIMOS E MULTIPLICAÇÃO DE MATRIZES 


Esta seção apresenta um algoritmo de programação dinâmica para o problema de caminhos mínimos para todos os 
pares em um grafo dirigido G = (V, E). Cada laço principal do programa dinâmico invocará uma operação que é muito 
semelhante à multiplicação de matrizes, de modo que o algoritmo será parecido com uma multiplicação de matrizes 
repetida. Começaremos desenvolvendo um algoritmo de tempo O(V,) para o problema de caminhos mínimos para 
todos os pares e depois melhoraremos seu tempo de execução para O(V, lg V). 

Antes de continuar, vamos recapitular rapidamente as etapas para desenvolver um algoritmo de programação 
dinâmica dadas no Capítulo 15. 

1. Caracterizar a estrutura de uma solução ótima. 
2. Definr recursivamente o valor de uma solução ótima. 
3. Calcular o valor de uma solução ótima de baixo para cima. 
Reservamos a quarta etapa — construção de uma solução ótima por informações calculadas — para os exercícios. 


A estrutura de um caminho mínimo 


Começaremos caracterizando a estrutura de uma solução ótima. Para o problema de caminhos mínimos para todos 
os pares em um grafo G = (V, E), já provamos (Lema 24.1) que todos os subcaminhos de um caminho mínimo são 
caminhos mínimos. Suponha que representemos o grafo por uma matriz de adjacências W = (w;). Considere um 
caminho mínimo p do vértice i ao vértice j, e suponha que p contenha no máximo m arestas. Considerando que não 
existe nenhum ciclo de peso negativo, m é finito. Se i = j, então p tem peso O e nenhuma aresta. Se os vértices i e j são 
distintos, decompomos o caminho p em ip” k — j, onde o caminho p” agora contém no máximo m — 1 arestas. Pelo 
Lema 24.1, p” é um caminho mínimo de i a k e, assim, d(i, j) = d(i, k) + We 


Uma solução recursiva para o problema de caminhos mínimos para todos os pares 


Jura) 


Agora, seja o peso mínimo de qualquer caminho do vértice i ao vértice j, que contém no máximo m arestas. 
Quando m = 0, existe um caminho mínimo de i a j sem nenhuma aresta se e somente se i =;. Portanto, 


Jo = Õ sei=1, 
Ê 00 sei j. 
puro (m—1) 
Param 1, calculaimos ” como o mínimo de à (o peso de um caminho mínimo de i a j que consiste no 


máximo em m — 1 arestas) e o peso mínimo de qualquer caminho de i a j que consiste no máximo em m arestas, obtido 
pelo exame de todos os possíveis predecessores k de j. Assim, definimos recursivamente 


[M = min(1" mind» +, ) 
I<k<n ”) 


ij ij 


=min(l? +00). (25.2) 


A última igualdade decorre de que w, = O para todo j. 

Quais são os pesos reais de caminhos mínimos d(i, /)? Se o grafo não contém nenhum ciclo de peso negativo, 
então para todo par de vértices i e j para o qual d(i, j) < oo, existe um caminho mínimo de i a j que é simples e por isso 
contém no máximo n — 1 arestas. Um caminho do vértice i ao vértice 7 com mais de n — 1 arestas não pode ter peso 
menor que um caminho mínimo de i a j. Então, os pesos reais de caminhos mínimos são dados por 


,p=["D=0=MD=,.. (25.3) 
J ij ij ij 


Cálculo dos pesos de caminhos mínimos de baixo para cima 


Tomando como nossa entrada a matriz W = (Wi), calculamos agora uma série de matrizes L Lopo Lao D, 


(1) 
(em | aa ad 
onde, para m = 1,2,...,n — 1, temos Ler)- id A matriz final L,, - 1) contém os pesos reais de caminhos mínimos. 
Observe que li; ) = wij para todos os vértices i,j E Ve, assim, LD= W. 

O múcleo do algoritmo é o procedimento a seguir que, dadas as matrizes L» - 1) e W, retorna a matriz L q»). Isto é, 
ele estende por mais uma aresta os caminhos mínimos calculados até agora. 


ExTEND-SHORTEST-PATHS(L, W) 


1 n= Linhas 

2 sejaL = umanovamatrizn xn (1). 
3 fori=lton 

4 forj=1ton 

5 L, = 00 

6 fork=1 ton 

7 


L=min(l,,l,+w) 
8 retum L' 


O procedimento calcula uma matriz L” = (ij), que ele devolve no final. Para tal, calcula a equação (25.2) para 
todo i e j, utilizando L para Lm - 1) e Lº para Lyr). (O algoritmo é escrito sem os índices para que suas matrizes de 
entrada e saída sejam independentes de m.) Seu tempo de execução é Q(n,), devido aos três laços for aninhados. 

Agora podemos ver a relação com a multiplicação de matrizes. Suponha que desejemos calcular o produto de 
matrizes C = 4 - B de duas matrizes n x n 4 e B. Então, para i, j = 1, 2, ..., n, caleulamos 


C, = Da, 'D,. (25.4) 


Observe que, se fizermos as substituições 


gem — 1) -— q, 

w > b, 

[m) — €, 

min > +, 
+ Ss 


na equação (25.2), obtemos a equação (25.4). Assim, se fizermos essas mudanças em Exrenp-Snorresr-Paras e também 
substituirmos oo (a identidade para min) por O (a identidade para +), obtemos o mesmo procedimento de tempo Q(n,) 
para multiplicar matrizes quadradas que vimos na Seção 4.2: 


SQUARE-MATRIX-MULTIPLY (A,B) 


n = A.linhas 
seja C uma nova matriz n x n 
fori=1ton 
forj=1ton 
c;=0 
fork=1ton 
C=C, HA Db, 


pt o TO DO OO O 


return C 


Retornando ao problema de caminhos mínimos para todos os pares, calculamos os pesos de caminhos mínimos 
estendendo os caminhos mínimos aresta por aresta. Denotando por 4 : B o “produto” de matrizes retornado por 
Exrenp-SHorrest-ParHs(A, B), calculamos a sequência de n — 1 matrizes 


LO = L0.W =W, 
LO = 10.W = W., 
LO = L9.W = W, 


Lt —1) — Lr-D.W — Wr-1. 


Como demonstramos, a matriz L,, - 1) = W, - 1 contém os pesos de caminhos mínimos. O procedimento a seguir, 
calcula essa sequência no tempo Q(n,). 


SLOW-ALL-PAIRS-SHORTEST-PaTHS(W) 
n = Wlinhas 
LO = W 
form=2ton-—1 
seja L(") uma nova matriz n x n 
Lt) = ExTEND-SHORTEST-PATHS(L(" -D,W) 


Oo QRO Nm 


return Lt" —D 


A Figura 25.1 mostra um grafo e as matrizes L”) calculadas pelo procedimento Stow-At1- Pairs-SHortEsT-Paras. 


Melhorar o tempo de execução 


Nosso objetivo, entretanto, não é calcular todas as matrizes Lp» ): estamos interessados somente na matriz L,, - 1). 
Lembre-se de que, na ausência de ciclos de peso negativo, a equação (25.3) implica Lm) = L, - 1) para todos os 
inteiros m > n — 1. Exatamente como a multiplicação de matrizes tradicional é associativa, também é associativa a 
multiplicação de matrizes definida pelo procedimento Exrenp-SHorresr-Paras (veja o Exercício 25.1-4). Portanto, 
podemos calcular L,, - 1) com somente le(n — 1) produtos de matrizes calculando a sequência 


O 3 
oo 0 
Ib=| co 4 
2 O 
OO OO 
0 3 PA 0 pa 
3 0 1 3 1 
I9=|7 4 05 11 W=|7 4 05 3 
Z =l =5 0 =2 2 =| =5 0) =2 
8 5 16 0 8 5 160 


Figura 25.1 Um grafo dirigido e a sequência de matrizes L, ») calculada por SLow-ALL-PAirS-SnortEST-PATHS. O leitor pode verificar que 
L(s;» definido como L,,, - Wé iguala L,, e, assim, L, m) = L(q, para todo m > 4. 


Figura 25.2 Um grafo dirigido ponderado para uso nos Exercícios 25.1-1,25.2-1 e 25.3-1. 


Lo= W 

Lo= W =W. 
Lo= Wi =W.. 
L9= Wº =W 


prt) = pa a W 

Visto que 2!g, - )>n — 1, o produto final L piew - 1)) é iguala L, - 1). 

O procedimento a seguir calcula a mesma sequência de matrizes empregando essa técnica de elevação ao 
quadrado repetida. 


altet n-DH1 alte n-DH1 


FASTER-ALL-PAIRS-SHORTEST-PATHS(W) 


1 n= Wlinhas 

2 I0=W 

> mel 

4 whilem<n—l 

5 seja Le”) uma nova matriz n x n 

6 Lem = ExTEND-SHORTEST-PATHS(L(2, [tm) 
7 m = 2m 

8 retum L(” 


Em cada iteração do laço while das linhas 4-7, calculamos L») (Ler ))2, começando com m = 1. No final de 
cada iteração, dobramos o valor de m. A iteração final calcula L,, - 1) calculando na realidade L,,”) para algum n — 1 < 
2m <2n — 2. Pela equação (25.3), Lom) = L(, - 1). Na próxima vez que o teste da linha 4 for executado, m já estará 
com seu valor dobrado; portanto, agora, m > n — 1, o teste falha e o procedimento devolve a última matriz que 
calculou. 


Como cada um dos produtos de matrizes demora o tempo Q(n,), Faster-ALL-Pairs-SHor- TEST-PaTHs É executado no 
tempo Q(n, lg n). Observe que o código é compacto, não contém nenhuma estrutura de dados elaborada e, portanto, a 
constante oculta na notação Q é pequena. 


Exercícios 


25.1-1 Execute Stow-ALL-Parrs-SHorrEst-Paras no grafo dirigido ponderado da Figura 25.2, mostrando as matrizes que 
resultam para cada iteração do laço. Depois, faça o mesmo para Faster-ALL-PaIRs-SHORTEST-PATES. 


25.1-2 Por que exigimos que w,. = O para todo | <i<n? 


25.1-3 A que corresponde, na multiplicação de matrizes comum, a matriz 


O oc o 00 

' O o 00 
(0) 

L'=| 00 o 0 (0.9) 

oo 00 00... O 


usada nos algoritmos? 
25.1-4 Mostre que a multiplicação de matrizes definida por Extenp-SHorresr-Paras é associativa. 


25.1-5 Mostre como expressar o problema de caminhos mínimos de fonte única como um produto de matrizes e um 
vetor. Descreva como a avaliação desse produto corresponde a um algoritmo como o de Bellman-Ford (veja 
a Seção 24.1). 


25.1-6 Suponha que também desejemos calcular os vértices em caminhos mínimos nos algoritmos desta seção. 
Mostre como calcular a matriz de predecessores P pela matriz completada L de pesos de caminhos mínimos 
no tempo O(n,). 


25.1-7 Podemos calcular também os vértices em caminhos mínimos à medida que calculamos os pesos de caminhos 
mínimos. Defina (m)ij como o predecessor do vértice ; em qualquer caminho de peso mínimo de i a j que 
contém no máximo m arestas. Modifique os procedimentos Exrenp-SHortest-Patus € SLow-ALL-PAIRS-SHORTEST- 
Parus para calcular as matrizes P(D, P(2), ..., P(, - 1) à medida que as matrizes L(, Loy ..., Ly -1) são 
calculadas. 


25.1-8 O procedimento Faster-ALL-Parrs-SHorTEsT-ParHs, como foi escrito, requer o armazenamento de lg(n — 1) 
matrizes, cada uma com n, elementos, para um requisito de espaço total de Q(n, lg n). Modifique o 
procedimento para que o requisito de espaço seja somente Q(n,), usando somente duas matrizes n X n. 


25.1-9 Modifique Faster-ALL-Parrs-SHortesr-Parus de modo que ele possa detectar se o grafo contém um ciclo de peso 
negativo. 


25.1-10 Dê um algoritmo eficiente para encontrar o comprimento (número de arestas) de um ciclo de peso negativo de 
comprimento mínimo em um grafo. 


25.2 OarcoriTMO DE FLoyD-WARSHALL 


Nesta seção, usaremos uma formulação de programação dinâmica diferente para resolver o problema de caminhos 
mínimos para todos os pares em um grafo dirigido G = (V, E). O algoritmo resultante, conhecido como algoritmo de 
Floyd-Warshall, é executado no tempo Q(V,). Como antes, arestas de peso negativo podem estar presentes, mas 
supomos que não existe nenhum ciclo de peso negativo. Como na Seção 25.1, seguiremos o processo de programação 
dinâmica para desenvolver o algoritmo. Depois de estudar o algoritmo resultante, apresentamos um método semelhante 
para encontrar o fecho transitivo de um grafo dirigido. 


A estrutura de um caminho mínimo 


No algoritmo de Floyd- Warshall, caracterizamos a estrutura de um caminho mínimo de um modo diferente do que 
usamos na Seção 25.1. O algoritmo de Floyd-Warshall considera os vértices intermediários de um caminho mínimo, 


onde um vértice intermediário de um caminho simples p =(v,, v,, ..., Vj) é qualquer vértice de p exceto v, ou v,, Isto é, 
qualquer vértice no conjunto fv,, Vs, ..., Vj- 13. 

O algoritmo de Floyd-Warshall se baseia na seguinte observação: como supomos que os vértices de G são V = (1, 
2, ..., ny , vamos considerar um subconjunto (1, 2, ..., kt de vértices para algum k. Para qualquer par de vértices i, j 
E V, considere todos os caminhos de i a j cujos vértices intermediários estejam em (1, 2, ..., ky, e seja p um caminho 
de peso mínimo dentre eles. (O caminho p é simples.) O algoritmo de Floyd-Warshall explora uma relação entre o 
caminho p e os caminhos mínimos de i a j cujos vértices intermediários estejam todos no conjunto (1,2,...,k- 11. A 
relação depende de k ser ou não um vértice intermediário do caminho p. 


vértices Intermediários vértices intermediários 
todos em (1,2, =. k— 1) todos em 412, as k — 1) 


p: vértices intermediários todos em (1,2,...k > 


Figura 25.3 O caminho p é um caminho mínimo do vértice i ao vértice j e k é o vértice intermediário de p com numeração mais alta. O 
caminho p,,a porção de caminho p do vértice i ao vértice k, temtodos os vértices intermediários no conjunto (1,2,..., k - 1). O mesmo 
vale para o caminho p, do vértice k ao vértice j. 


* Se k não é um vértice intermediário do caminho p, então todos os vértices intermediários do caminho p estão no 
conjunto (1, 2, ..., k - 1). Assim, um caminho mínimo do vértice i ao vértice j cujos vértices intermediários estão 
no conjunto (1, 2,..., k - 1) também é um caminho mínimo de i a j cujos vértices intermediários estão no conjunto 
PRA a 

* Se é um vértice intermediário do caminho p, então desmembramos p em i p:k »2j, como mostra a Figura 25.3. 
Pelo Lema 24.1, p: é um caminho mínimo de i a k cujos vértices intermediários estão no conjunto f1, 2, ..., kt. Na 
verdade, a nossa afirmativa pode ser um pouco mais contundente. Como o vértice k não é um vértice intermediário 
do caminho pi, todos os vértices intermediários de p, estão no conjunto (1, 2, ..., k — 1). Portanto, p, é um 
caminho mínimo de i a k cujos vértices intermediários estão no conjunto (1, 2,..., k — 1). De modo semelhante, p, 
é um caminho mínimo do vértice k ao vértice j cujos vértices intermediários estão no conjunto (1, 2,...,k-— 14. 


Uma solução recursiva para o problema de caminhos mínimos para todos os pares 


Com base nas observações anteriores, definimos uma formulação recursiva de estimativas de caminhos mínimos 
diferente da que definimos na Seção 25.1. Seja d(k Jij o peso de um caminho mínimo do vértice i ao vértice j cujos 
vértices intermediários estão no conjunto (1, 2, ..., k;. Quando k = 0, um caminho do vértice i ao vértice j que não tem 
nenhum vértice intermediário com numeração mais alta que O não tem absolutamente nenhum vértice intermediário. Tal 
caminho tem, no máximo, uma aresta e então d(o) = w . Conforme essa discussão, definimos d( « )i; recursivamente por 


W , sek = 0, 
(k) 


l - 
1 min (dt do pdf) sek>1 (25.5) 


Considerando que, para qualquer caminho, todos os vértices intermediários estão no conjunto (1, 2,..,ny,a 
matriz D,,) = (d(n)ij ) dá a resposta final: d(n)ij = d(i, j) para todo i,j & V. 


Calculando os pesos de caminhos mínimos de baixo para cima 


Com base na recorrência (25.5), podemos usar o procedimento de baixo para cima dado a seguir para calcular os 
valores d( « Jjem ordem crescente de valores de k. Sua entrada é uma matriz n x n W definida como na equação 
(25.1). O procedimento devolve a matriz D,,) de pesos de caminhos mínimos. 


FLroyp-WarsHALI(W) 


n = W.linhas 
DO = W 
fork=1 ton 

seja DO — (dº) uma nova matrizn x n 

fori=1 ton 

forj=1 ton 
(9) min [AD GU | qt) 
dP = min(d Pdf + dt) 

retum D(” 


GO NA CR ONmA 


A Figura 25.4 mostra as matrizes D(*) calculadas pelo algoritmo de Floyd-Warshall para o grafo na Figura 25.1. 

O tempo de execução do algoritmo de Floyd-Warshall é determinado pelos laços for triplamente animnhados das 
linhas 3-7. Como cada execução da linha 7 demora o tempo O(1), o algoritmo é executado no tempo Q(n,). Como no 
algoritmo final na Seção 25.1, o código é compacto, sem nenhuma estrutura de dados elaborada, portanto a constante 
oculta na notação Q é pequena. Assim, o algoritmo de Floyd-Warshall é bastante prático até mesmo para grafos de 
entrada de dimensões moderadas. 


Como construir um caminho mínimo 


Existe uma variedade de métodos diferentes para construir caminhos mínimos no algoritmo de Floyd-Warshall. Um 
deles é calcular a matriz D de pesos de caminhos mínimos e depois construir a matriz de predecessores P pela matriz D. 
O Exercício 25.1-6 pede que você implemente esse método de modo que seja executado no tempo O(n,). Dada a 
matriz de predecessores P, o procedimento Print-ALL-Pairs-SHorTEsT-PaTH imprimirá os vértices em um caminho mínimo 
dado. 

Alternativamente, podemos calcular a matriz de predecessores P enquanto o algoritmo calcula as matrizes D(). 
Especificamente, calculamos uma sequência de matrizes P(0), P(), ..., P(,), onde P = P(), e definimos (« )Jj como o 
predecessor do vértice 7 em um caminho mínimo que parte do vértice i cujos vértices intermediários estão no conjunto 
1d RE 

Podemos dar uma formulação recursiva de ( « )j. Quando k = O, um caminho mínimo de i a j não tem 
absolutamente nenhum vértice intermediário. Assim, 


NIL sei=;ou W; =00, 


i seizjemw <oo. (25.6) 


Para k > 1, se tomarmos o caminho i k j, onde k + j, então o predecessor de ; que escolhemos será igual ao 
predecessor de j; que escolhemos em um caminho mínimo que parte de k cujos vértices intermediários estão no 
conjunto f1, 2, ..., k — 1). Caso contrário, escolhemos o mesmo predecessor de ; que escolhemos em um caminho 
mínimo que parte de i cujos vértices intermediários estão no conjunto (1, 2, ..., k — 14. Formalmente, para k > 1, 


k- k-1 k-1 k- 
" T, ) se d, <dy fed , 
Ts; ta) (k-1) (k-1) (k-1) (25.7) 
mo? sed >d 4 do. 
k ij ik k 
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Figura 25.4 A sequência de matrizes D ( «) e P (+) calculada pelo algoritmo de Floyd-Wharshall para o grafo na Figura 25.1. 


Deixamos a incorporação dos cálculos das matrizes P(*) ao procedimento de FLoyp-War-sHaLL para o Exercício 
25.2-3. A Figura 25.4 mostra a sequência de matrizes P(k) que o algoritmo resultante calcula para o grafo da Figura 
25.1. O exercício também pede que você realize a tarefa mais difícil de provar que o subgrafo dos predecessores Gp, ' 
é uma árvore de caminhos mínimos com raiz i. O Exercício 25.2-7 pede ainda uma outra maneira de reconstruir 
caminhos mínimos. 


Fecho transitivo de um grafo dirigido 


Dado um grafo dirigido G = (V, E) com o conjunto de vértices V = (1, 2, ..., nt, desejamos determinar se G 
contém um caminho de i aj para todos os pares de vértices i,j € V. Definimos o fecho transitivo de G como o grafo 
G* = (V, E*), onde 


E* = ((i, j) : existe um caminho do vértice i ao vértice j em G+. 


Um modo de calcular o fecho transitivo de um grafo no tempo Q(n,) é atribuir peso 1 a cada aresta de E e 
executar o algoritmo de Floyd-Warshall Se existe um caminho do vértice i ao vértice j, obtemos d, < n. Caso 
contrário, obtemos d;, = 00. 

Há um outro modo semelhante de calcular o fecho transitivo de G no tempo O(n,) que pode poupar tempo e 
espaço na prática. Esse método substitui as operações aritméticas mn e + no algoritmo de Floyd-Warshall pelas 
operações lógicas V (OU lógico) e A (E lógico). Para i, j, k = 1, 2, ..., n, definimos «( « )ij. como 1 se existe um 
caminho no grafo G do vértice i ao vértice ; com todos os vértices intermediários no conjunto (1, 2, ..., k; e como O 
em caso contrário. Construímos o fecho transitivo G* = (V E*) inserindo a aresta (ij) em E * se e somente se tn) = 1. 
Uma definição recursiva de !( x ) análoga à recorrência (25.5) é 


o] sizje(iéE, 
/ | sei=j ou(i,j)cE E, 
eparak>1, 


e» — pe Pv(ts D AE 1 (25.8) 


k 


] 


Ho) 
Como no algoritmo de Floyd-Warshall, calculamos as matrizes 7/4) = 7 ! emordem crescente de k. 


TRANSITIVE-CLOSURE (G) 


1 n=|G.V 
2 sejaTO= (89) uma nova matriz n x n 
3 fori=lton 
4 forj=1 ton 
D fi==jou(i,)eGE 
6 ado | 
] 
7 else ca =0 
8 fork=1ton 
9 seja TO = (19) uma nova matriz n x n 
10 fori=1ton 
4 forj=1ton 
12 E == 48 (pi Ale) 


ij 
13 return T(” 


A Figura 25.5 mostra as matrizes Tt) calculadas pelo procedimento Transmve-CLosure em um grafo de amostra. O 
procedimento Transimve-CLosure, assim como o algoritmo de Floyd-Warshall, é executado no tempo Q(n,). Entretanto, 
em alguns computadores, operações lógicas em valores de um único bit são executadas mais rapidamente que 
operações aritméticas em palavras de dados inteiras. Além disso, como o algoritmo direto de fecho transítivo usa 
somente valores booleanos em vez de valores inteiros, seu requisito de espaço é menor que o do algoritmo de FLoyp- 
WarsHALL por um fator correspondente ao tamanho de uma palavra de armazenamento no computador. 
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Figura 25.5 Um grafo dirigido e as matrizes 7 «) calculadas pelo algoritmo de fecho transitivo. 
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Exercícios 


25.2-1 Execute o algoritmo de Floyd-Warshall no grafo dirigido ponderado da Figura 25.2. Mostre a matriz D(*) que 


resulta de cada iteração do laço externo. 


25.2-2 Mostre como calcular o fecho transitivo empregando a técnica da Seção 25.1. 


25.2-3 Modifique o procedimento FLoyn-WarsHaLt para calcular as matrizes P(k) de acordo com as equações (25.6) 


e (25.7). Prove rigorosamente que, para todo i €E V, o subgrafo dos predecessores Gp, i é uma árvore de 
caminhos mínimos com raiz i. (Sugestão: Para mostrar que Gp, | é acíclico, primeiro mostre que (kJ = 1 
implica d(k)i; > d (ki + w ij, de acordo com a definição de (k)j. Então adapte a prova do Lema 24.16.) 


25.2-4 Como foi apresentado, o algoritmo de Floyd-Warshall requer o espaço Q(n;), visto que calculamos d(k ) para 


ij, k = 1,2,.., n. Mostre que o procedimento a seguir, que simplesmente descarta todos os índices 
superiores, é correto e, assim, o espaço requerido é somente Q(n,). 


FLoyD-WARsHALL (W) 


1n=Wlinhas 
2b=W 
3fork=1ton 
4 fori=1 ton 
5 forj=1ton 
6 d, = min(d,, d+ d,) 
7 return D 
25.2-5 Suponha que modificamos o modo como a equação (25.7) trataa igualdade: 
k k—1 k—1 k—1 
med <td, 
qm =) 9 ij ik kj 
jo k-1 ki k—1 k—1 
' qt se qt! > qt 4 qe, 
k ij ik kj 
Essa definição alternativa da matriz de predecessores P é correta? 

25.2-6 Como podemos usar a saída do algoritmo de Floyd-Warshall para detectar a presença de um ciclo de peso 
negativo? 

25.2-7 Um outro modo de reconstruir caminhos mínimos no algoritmo de Frovn-WarsuaLL utiliza valores (A); para i, j, 
k = 1,2, ...,n, onde (k)ij é o vértice intermediário de numeração mais alta de um caminho mínimo de i a j no 
qual todos os vértices intermediários estão no conjunto (1, 2, ..., k). Apresente uma formulação recursiva 
para (k)i, modifique o procedimento FLoyn-WarsmaLL para calcular os valores de (k)ij e reescreva o 

(n) 
procedimento Print-ALL-Parrs-SHorTEsT-PaTH para adotar a matriz = j como entrada. Qual é a semelhança 
entre a matriz e a tabela s no problema de multiplicação de cadeias de matrizes da Seção 15.27 
25.2-8 Dê umalgoritmo de tempo O(V E) para calcular o fecho transítivo de um grafo dirigido G = (V, E). 
25.2-9 Suponha que possamos calcular o fecho transítivo de um grafo acíclico no tempo (|V), |El), onde f é uma 


função monotonicamente crescente de |V] e |]. Mostre que o tempo para calcular o fecho transítivo G. = (V, 
E.) de um grafo dirigido geral G = (V, E) é FIV, IE) + O(V + E*). 


25.3 ALGORITMO DE JOHNSON PARA GRAFOS ESPARSOS 


O algoritmo de Johnson encontra caminhos mínimos entre todos os pares no tempo O(V, lg V + VE). Para grafos 
esparsos, ele é assintoticamente melhor que a elevação ao quadrado repetida de matrizes ou o algoritmo de Floyd- 
Warshall. O algoritmo retorna uma matriz de pesos de caminhos mínimos para todos os pares de vértices ou informa 
que o grafo de entrada contém um ciclo de peso negativo. O algoritmo de Johnson usa como sub-rotinas o algoritmo de 
Dijkstra e o algoritmo de Bellman-Ford, descritos no Capítulo 24. 

O algoritmo de Johnson emprega a técnica de reponderação, que funciona da maneira descrita a seguir. Se todos 
os pesos de arestas w em um grafo G = (V, E) são não negativos, podemos encontrar caminhos mínimos entre todos os 
pares de vértices executando o algoritmo de Dijkstra uma vez a partir de cada vértice; com a fila de prioridade mínima 
do heap de Fibonacci, o tempo de execução desse algoritmo para todos os pares é O(V, lg V+ VE). 

Se G tem arestas de peso negativo mas nenhum ciclo de peso negativo, simplesmente calculamos um novo 
conjunto de pesos de arestas não negativos que nos permita utilizar o mesmo método. O novo conjunto de pesos de 
arestas deve satisfazer duas propriedades importantes. 

1. Para todos os pares de vértices u, v € V, um caminho p é um caminho mínimo de u a v 

usando a função peso w se e somente se p também é um caminho mínimo de u a v usando a função peso w”. 
2. Para todas as arestas (u, v), o novo peso w” (u, v) é não negativo. 

Como veremos em breve, podemos pré-processar G para determinar a nova função peso no tempo O(V E). 


Preservando caminhos mínimos por reponderação 


O lema a seguir mostra como é fácil reponderar as arestas para satisfazer a propriedade descrita no item 1. 
Utilizamos d para denotar pesos de caminhos mínimos derivados da função peso w e para denotar pesos de caminhos 
mínimos derivados da função peso w”. 


Lema 25.1 (Reponderação não muda caminhos mínimos) 
Dado um grafo dirigido ponderado G = (V, E) com função peso w :E — , sejah :V — qualquer função que mapeie 
vértices para números reais. Para cada aresta (u, v) &E E, defina 

v(u,v) = w(u,v) + h(u) — h(v). (25.9) 


Seja p = (Vo Vj --., V,) qualquer caminho do vértice v, ao vértice v,. Então, p é um caminho mínimo de v, a v, com 
função peso w se e somente se é um caminho mínimo com função peso w” . Isto é, w(p) = d(v,, V,) se e somente se w” 
(p) = d(vo, v;). Além disso, G tem um ciclo de peso negativo usando função peso w se e somente se G tem um ciclo de 
peso negativo usando finção peso w”. 


Prova Começamos mostrando que 
w(p) = w(p)+h(v,)—ht(o,) (25.10) 


Temos 
k 


v(p)=> ú(v,,,0) 


i=1 


— So u(o, ; Ud+ h(o,., )— h(v,) 


= > w(v, ,u)+h(v)—h(v,) (porque a soma é telescópica) 


=w(p)+h(v)—h(v,). 


Portanto, qualquer caminho p de v, a v, tem w” (p) = w(p)+ h(v 5 )— A(v , ). Como A(v,) e A(v,) não dependem do 
caminho, se um caminho de v, a v, é mais curto que outro usando função peso w, então, ele também é mais curto 
usando w” . Assim, w(p) = d(v,, v,) se e somente se w” (p) = (vo, V |). 

Finalmente, mostramos que G tem um ciclo de peso negativo usando a função peso w se e somente se G tem um ciclo 


de peso negativo usando a função peso w” . Considere qualquer ciclo c = (vo, V4, -.., Vo) onde v, = v,. Pela equação 
(25.10), 
w=w(c)+h(v,)-—h(ov,) 
= le) , 


e, assim, c tem peso negativo usando w se e somente se tem peso negativo usando w”. 


Produzindo pesos não negativos por reponderação 


Nossa próxima meta é garantir que a segunda propriedade seja válida: queremos que w” (u, v) seja não negativo 
para todas as arestas (u, v) &€ E. Dado um grafo dirigido ponderado G = (V, E) com função peso w : E — , criamos 
um novo grafo G'=(V”, E), onde V'=V U fs! para algumnovo vértices E VeE'=EU Gs, v):ve NM. 
Estendemos a função peso w de modo que w(s, v) = O para todo v & V. Observe que, por s não ter nenhuma aresta 
de entrada, nenhum caminho mínimo em G”, exceto os que partem de s, contém s. Além disso, G "não tem nenhum ciclo 
de peso negativo se e somente se G não tem nenhum ciclo de peso negativo. A Figura 25.6(a) mostra o grafo G' 
correspondente ao grafo G da Figura 25.1. 

Agora, suponha que G e G "não tenham nenhum ciclo de peso negativo. Vamos definir A(v) = d(s, v) para todo v 
E V”. Pela desigualdade triangular (Lema 24.10), temos A(v) < A(u) + w(u, v) para todas as arestas (u, v) E E”. 
Portanto, se definirmos os novos pesos de acordo com a equação (25.9), teremos w” (u, v) = w(u, v) + A(u) — A(v) > 
O, e satisfazemos a segunda propriedade. A Figura 25.6(b) mostra o grafo G” da Figura 25.6(a) com arestas 
reponderadas. 


| 


Figura 25.6 O algoritmo de caminhos mínimos para todos os pares de Johnson executado no grafo da Figura 25.1. A numeração dos 
vértices aparece fora deles. (a) O grafo G' coma função peso original w. Onovo vértice s é preto. Dentro de cada vértice v está A(v) = 
d(s, v). (b) Após a reponderação de cada aresta (u, v ) coma função peso w” (u,v)=w(u, v) + h(v). (c)-(g) Resultado da execução do 
algoritmo de Dijkstra em cada vértice de G usando a função peso w” . Emcada parte, o vértice de fonte u é preto, e as arestas 
sombreadas estão na árvore de caminhos mínimos calculada pelo algoritmo. Dentro de cada vértice v estão os valores “(u, v )e d(u, v), 
separados por uma barra inclinada. O valor dy = d(u, v) é iguala “(u, v) + A(v) - A(u ). 


Calculando caminhos mínimos para todos os pares 


O algoritmo de Johnson para calcular caminhos mínimos para todos os pares emprega o algoritmo de Bellman- 
Ford (Seção 24.1) e o algoritmo de Dijkstra (Seção 24.3) como sub-rotinas, e supõe implicitamente que as arestas 
estão armazenadas em listas de adjacências. O algoritmo retorna a matriz || x |V] habitual D = d,,, onde d; = d(i, j) ou 
informa que o grafo de entrada contém um ciclo de peso negativo. Como é típico, no caso de um algoritmo de caminhos 
mínimos para todos os pares, supomos que os vértices são numerados de 1 a |V. 


Jomnson(G) 


1 calcular G”, onde V[G'] = V[G]U (s), 

E[G” = E[GJU ((s,v):v e V[G]t e 

w(s, v) = O para todo v E V[G] 
if BELLMAN-FORD(G", w,s) == FALSE 

imprimir “o grafo de entrada contém um ciclo de peso negativo” 
else for cada vértice v e V[G'] 

definir h(v) como o valor de ô(s, v) 

calculado pelo algoritmo de Bellman-Ford 

6 for cada aresta (u,v) € E[G'] 
z v(u,v) = w(u,v) + h(u) — h(v) 
8 
9 


TR ON 


seja D = (d ) uma nova matriz n x n 


uv 


for cada vértice u e V[G] 
10 executar DijksTRA(G, iv, 4) para calcular ô(u, 0) para todo v € V[G] 
bl for cada vértice v € V[6] 
12 d =ô(u,0) + h(v) — h(u) 


uv 


13 retum D 


Esse código simplesmente executa as ações que especificamos anteriormente. A linha 1 produz G”. A linha 2 
executa o algoritmo de Bellman-Ford em G” com função peso w e vértice fonte s. Se G”, e consequentemente G, 
contém um ciclo de peso negativo, a linha 3 relata o problema. As linhas 4-12 consideram que G "não contém nenhum 
ciclo de peso negativo. As linhas 4-5 definem A(v) como o peso do caminho mínimo d(s, v) calculado pelo algoritmo de 
Bellman-Ford para todo v & V”. As linhas 6-7 calculam os novos pesos w” . Para cada par de vértices u, v E V,o 
laço for das linhas 9-11 calcula o peso do caminho mínimo “(u, v) chamando o algoritmo de Dijkstra uma vez para 
cada vértice em V. A linha 12 armazena na entrada de matriz d, o peso correto do caminho mínimo d(u, v), calculado 
pela equação (25.10). Finalmente, a linha 13 retorna a matriz D completada. A Figura 25.6 mostra a execução do 
algoritmo de Johnson. 

Se implementarmos a fila de prioridade mínima no algoritmo de Dijkstra por um heap de Fibonacci, o algoritmo de 
Johnson é executado no tempo O(V, lg V + VE). A implementação mais simples por heap mínimo binário produz o 
tempo de execução O(VE lg V), que ainda é assintoticamente mais rápido que o algoritmo de Floyd-Warshall se o grafo 
é esparso. 


Exercícios 


25.3-1 Use o algoritmo de Johnson para encontrar os caminhos mínimos entre todos os pares de vértices no grafo da 
Figura 25.2. Mostre os valores de h e w” calculados pelo algoritmo. 


25.3-2 Qualé a finalidade de adicionar o novo vértice s a V, produzindo V”? 
25.3-3 Suponha que w(u, v) > O para todas as arestas (u, v) E E. Qualé a relação entre as funções peso w e w” ? 


25.3-4 O professor Greenstreet afirma que existe um modo mais simples de reponderar arestas que o método usado 
no algoritmo de Johnson. Fazendo w* = min(u, EE fw(u, v)!, basta definr w” (u, v) = w(u, v) - w* para 
todas as arestas (u, v) E E. O que está errado no método de reponderação do professor? 


25.3-5 


25.3-6 


Suponha que executemos o algoritmo de Johnson em um grafo dirigido G com função peso w. Mostre que, se 
G contém um ciclo c de peso 0, então w” (u, v) = O para toda aresta (u, v) emc. 


O professor Michener afirma que não há necessidade de criar um novo vértice de fonte na linha 1 de Jomnson. 
Dz ele que, em vez disso, podemos simplesmente usar G "= G e fazer s ser qualquer vértice. Dê um exemplo 
de grafo dirigido ponderado G para o qual a incorporação da ideia do professor em Jomnson provoca 
respostas incorretas. Depois mostre que, se G é fortemente conexo (todo vértice pode ser alcançado de 
qualquer outro vértice), os resultados retornados por Jonnson com a modificação do professor são corretos. 


Problemas 


25-1 


25-2 


Fecho transitivo de um grafo dinâmico 


Suponha que desejemos manter o fecho transitivo de um grafo dirigido G = (V, E) à medida que inserimos 
arestas em E. Isto é, após a inserção de cada aresta, queremos atualizar o fecho transítivo das arestas 
inseridas até então. Suponha que, inicialmente, o grafo G não tenha nenhuma aresta e que representamos o 
fecho transítivo como uma matriz booleana. 


a. Mostre como atualizar o fecho transítivo G* = (V, E*) de um grafo G = (V, E) no tempo O(V>) quando 
uma nova aresta é adicionada a G. 


b. Dê um exemplo de grafo G e uma aresta e tal que seja necessário o tempo (V>) para atualizar o fecho 
transitivo após a inserção de e em G, não importando qual algoritmo seja usado. 


c. Descreva um algoritmo eficiente para atualizar o fecho transítivo à medida que arestas são inseridas no 
grafo. Para qualquer sequência de n inserções, seu algoritmo deve ser executado no tempo total 


Duiab = a] onde 1 é o tempo para atualizar o fecho transitivo quando a i-ésima aresta é inserida. 
Prove que seu algoritmo consegue esse limite de tempo. 


Caminhos mínimos em grafos e-densos 


Um grafo G = (V, E) é -denso se |E| = O(V,+) para alguma constante e na faixa O < e < 1. Utilizando heaps 
de mínimo d-ários (veja o Problema 6-2) em algoritmos de caminhos mínimos em grafos e-densos, podemos 
alcançar os tempos de execução de algoritmos baseados em heaps de Fibonacci sem utilizar uma estrutura de 
dados tão complicada. 


a. Quais são os tempos de execução assintóticos para Inserr, Exrracr-Min E Decrease-Key, em função de d e 
do número n de elementos em um heap d-ário? Quais são esses tempos de execução se escolhemos d = 
Q(na) para alguma constante O <a < 1? Compare esses tempos de execução com os custos amortizados 
dessas operações para um heap de Fibonacci. 


b. Mostre como calcular caminhos mínimos de fonte única em um grafo dirigido e-denso G = (V, E) que 
não tenha nenhuma aresta de peso negativo no tempo O(E). (Sugestão: Escolha d em função de e.) 


c. Mostre como resolver o problema de caminhos mínimos para todos os pares em um grafo dirigido e- 
denso G = (V, E) que não tenha nenhuma aresta de peso negativo no tempo O(V E). 


d. Mostre como resolver o problema de caminhos mínimos para todos os pares no tempo O(V E) em um 
grafo dirigido e-denso G = (V, E) que pode ter arestas de peso negativo, mas não tem nenhum ciclo de 
peso negativo. 


NorTas DO CAPÍTULO 


Lawler [224] dá uma boa descrição do problema de caminhos mínimos para todos os pares, embora não analise 
soluções para grafos esparsos. Ele atribui o algoritmo de multiplicação de matrizes ao folclore. O algoritmo de Floyd- 
Warshall foi criado por Floyd [105], que tomou como base um teorema de Warshall [349] que descreve como calcular 
o fecho transitivo de matrizes booleanas. O algoritmo de Johnson foi obtido de [192]. 

Vários pesquisadores apresentaram algoritmos melhorados para calcular caminhos mínimos por multiplicação de 
matrizes. Fredman [111] mostra como resolver o problema de caminhos mínimos para todos os pares usando (V,,,) 
comparações entre somas de pesos de arestas e obtém um algoritmo que é executado no tempo O(V, (lg lg Vlg V)1/3), 
ligeiramente melhor que o tempo de execução do algoritmo de Floyd- Warshall. Han [159] reduziu o tempo de execução 
para O(V3(lg lg V/lg V)5/4). Outra linha de pesquisa demonstra que podemos aplicar algoritmos para multiplicação 
rápida de matrizes (veja as Notas do Capítulo 4) ao problema de caminhos mínimos para todos os pares. Seja O(n,) o 
tempo de execução do algoritmo mais rápido para multiplicar matrizes n x n; atualmente, w < 2,376 [78]. Galil e 
Margalit [123, 124] e Seidel [308] criaram algoritmos que resolvem o problema de caminhos mínimos para todos os 
pares em grafos não dirigidos e não ponderados no tempo (V, p(V)), onde p(n) denota uma função específica que é 
limitada polilogaritmicamente em n. Em grafos densos, esses algoritmos são mais rápidos que o tempo O(VE) 
necessário para executar || pesquisas em largura. Vários pesquisadores estenderam esses resultados para dar 
algoritmos que resolvem o problema de caminhos mínimos para todos os pares em grafos não dirigidos nos quais os 
pesos de arestas são inteiros no intervalo (1, 2, ..., W). Desses algoritmos, o mais rápido assintoticamente, criado por 
Shoshan e Zwick [316], é executado no tempo O(W V, p(VW)). 

Karger, Koller e Phillips [196] e McGeoch [215], independentemente, deram um limite de tempo que depende de 
E., o conjunto de arestas em E que participam de algum caminho mínimo. Dado um grafo com pesos de arestas não 
negativos, tais algoritmos são executados no tempo O(VE, + V, lg V) e melhoram com a execução do algoritmo de 
Dijkstra |V] vezes quando |E,| = o(E). 

Baswana, Hariharan e Sen [33] examinaram algoritmos decrementadores para manter informações de caminhos 
mínimos para todos os pares e de fecho transitivo. Algoritmos decrementadores permitem uma sequência de 
eliminações e consultas entremeadas; por comparação, o Problema 25-1, no qual são inseridas arestas, pede um 
algoritmo incremental. Os algoritmos criados por Baswana, Hariharan e Sen são aleatorizados e, quando existe um 
caminho, tais algoritmos podem falhar e deixar de informar que tal caminho existe com probabilidade 1/n. para c > 0 
arbitrária. Os tempos de consulta são O(1) com alta probabilidade. Para fecho transitivo, o tempo amortizado para 
cada atualização é O(V,, Igl'3 V). Para caminhos mínimos para todos os pares, os tempos de atualização dependem 
das consultas. Para consultas que dão apenas os pesos dos caminhos mínimos, o tempo amortizado por atualização é 
O(V E lg? V). O tempo para mformar o caminho mínimo propriamente dito é mn(O(V,, Vg v), O(V E Ig V). 
Demetrescu e Italiano [84] mostraram como tratar operações de atualização e consulta quando as arestas são inseridas 
e também eliminadas, desde que cada aresta dada tenha uma faixa limitada de valores possíveis extraída do conjunto de 
números reais. 

Aho, Hopcroft e Ullman [5] definiram uma estrutura algébrica conhecida como “semianeP”, que serve como uma 
estrutura geral para resolver problemas de caminhos em grafos dirigidos. O algoritmo de Floyd-Warshall, bem como o 
do fecho transítivo da Seção 25.2 são instanciações de um algoritmo para todos os pares baseado em semianéis. 
Maggs e Plotkin [240] mostraram como encontrar árvores geradoras mínimas usando um semianel. 


») 6 FLuxo MÁXIMO 


Da mesma maneira que podemos modelar um mapa rodoviário como um grafo dirigido para encontrar o caminho 
mínimo de um ponto a outro, também podemos interpretar um grafo dirigido como uma “rede de fluxo” e usá-lo para 
responder a perguntas sobre fluxos de materiais. Imagine um material percorrendo um sistema desde uma fonte onde o 
material é produzido até um sorvedouro, onde ele é consumido. A fonte produz o material a alguma taxa fixa, e o 
sorvedouro consome o material à mesma taxa. O “fluxo” do material em qualquer ponto no sistema é intuitivamente a 
taxa pela qual o material se move. Redes de fluxo podem modelar muitos problemas, entre eles líquidos que fluem por 
tubos, peças que percorrem linhas de montagem, correntes que passam por redes elétricas e informações transmitidas 
por redes de comunicação. 

Podemos imaginar cada aresta dirigida em uma rede de fluxo como um conduto para o material. Cada conduto tem 
uma capacidade estabelecida, dada como uma taxa máxima pela qual o material pode fluir pelo conduto, como 200 
litros de líquido por hora por um cano ou 20 ampéres de corrente elétrica por um fio condutor. Vértices são junções de 
condutos e, exceto quando se trata da fonte e do sorvedouro, o material flui pelos vértices sem se acumular. Em outras 
palavras, a taxa pela qual o material entra em um vértice deve ser igual à taxa pela qual sai do vértice. Denominamos 
essa propriedade “conservação do fluxo”, e ela é equivalente à lei das correntes de Kirchhoff para a qual o material é a 
corrente elétrica. 

No problema de fluxo máximo, desejamos calcular a maior taxa pela qual podemos despachar material da fonte até 
o sorvedouro sem infringir quaisquer restrições à capacidade. Esse é um dos problemas mais simples relacionados a 
redes de fluxo e, como veremos neste capítulo, pode ser resolvido por algoritmos eficientes. Além disso, podemos 
adaptar as técnicas básicas usadas em algoritmos de fluxo máximo para resolver outros problemas de redes de fluxo. 

Este capítulo apresenta dois métodos gerais para resolver o problema do fluxo máximo. A Seção 26.1 formaliza as 
noções de redes de fluxo e fluxos, definindo formalmente o problema do fluxo máximo. A Seção 26.2 descreve o 
método clássico de Ford e Fulkerson para determinar fluxos máximos. Uma aplicação desse método, encontrar um 
emparelhamento máximo em um grafo bipartido não dirigido, é dada na Seção 26.3. A Seção 26.4 apresenta o método 
push-relabel (empurrar-renomear), que serve de base para muitos dos algoritmos mais rápidos para problemas de 
redes de fluxo. A Seção 26.5 abrange o algoritmo relabel-to-front (renomear e posicionar à frente), uma 
implementação particular do método push-relabel que é executado no tempo 

O(V,). Embora esse não seja o algoritmo mais rápido conhecido, ilustra algumas das técnicas usadas nos 
algoritmos assintoticamente mais rápidos e é razoavelmente eficiente na prática. 


26.1 REDES DE FLUXO 
Nesta seção, daremos uma definição para redes de fluxo do ponto de vista da teoria dos grafos, discutiremos suas 


propriedades e definremos com exatidão o problema do fluxo máximo. Apresentaremos também, algumas regras úteis 
de notação. 


Redes de fluxo e fluxos 


Uma rede de fluxo G = (V, E) é um grafo dirigido no qual cada aresta (u, v) & E tem uma capacidade não 
negativa c(u, v) > 0. Impomos ainda mais que, se E contém uma aresta (u,v), então não há nenhuma aresta (v, u) na 
direção contrária. (Veremos em breve como contornar essa restrição.) Se (u,v) É E, então, por conveniência, definimos 
c(u,v) = 0, e proibimos laços. Distinguimos dois vértices em uma rede de fluxo: uma fonte s e um sorvedouro t. Por 
conveniência, consideramos que cada vértice se encontra em algum caminho da fonte até o sorvedouro. Isto é, para 
todo vértice v & V, a rede de fluxo contém um caminho s v t. Portanto, o grafo é conexo e, visto que cada vértice 
exceto s tem no mínimo uma aresta de entrada, |E| > |V] — 1. A Figura 26.1 mostra um exemplo de rede de fluxo. 

Agora, estamos prontos para dar uma definição mais formal de fluxos. Seja G = (V, E) uma rede de fluxo com 
uma função capacidade c. Seja s a fonte da rede e seja t o sorvedouro. Um fluxo em G é uma função de valor real f: 
VxV-> que satisfaz as três propriedades seguintes: 


Restrição de capacidade: Para todo u, v & V, exigimos 0 < flu, v)< c(u, v). 


Conservação de fluxo: Para todo u E V-— fs, t), impomos 


DfHon=> fu). 


veV veV 


Quando (u, v) € E, não pode haver nenhum fluxo de u a v, e f(u,v) = 0. 
A quantidade não negativa f(u, v) é denominada fluxo do vértice u ao vértice v. O valor |f| de um fluxo é definido 
como 


A=Drso-Drtvs. (261) 


isto é, o fluxo total que sai da fonte menos o fluxo que entra na fonte. (Aqui, a notação |: | identifica valor de fluxo e não 
valor absoluto ou cardinalidade.) Normalmente, uma rede de fluxo não terá nenhuma aresta de entrada na fonte, e o 


fluxo que entra na fonte, dado pelo somatório >ye vf(v,s), será O. Contudo, nós o incluímos porque, quando 


apresentarmos redes residuais mais adiante neste capítulo, o fluxo que entra na fonte se tornará significativo. No 
problema do fluxo máximo temos uma rede de fluxo G com fonte s e sorvedouro t, e desejamos encontrar um fluxo 
de valor máximo. 
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Figura 26.1 (a) Uma rede de fluxo G = (V, E) para o problema do transporte da Lucky Puck Company. A fábrica de Vancouver é a fontes, 
e o armazém de Winnipeg é o sorvedouro t. A empresa entrega discos para hóquei (pucks) em cidades intermediárias, mas somente c (u, 
v) caixotes por dia podem ir da cidade u para a cidade v. Cada aresta é identificada por sua capacidade. (b) Um fluxo fem G com valor |f]| 
= 19. Cada aresta (u, v) é identificada por fu, v)/c(u, v ). A barra inclinada na notação serve apenas para separar fluxo e capacidade; não 
indica divisão. 


Antes de vermos um exemplo de problema de rede de fluxo, vamos explorar brevemente a definição de fluxo e as 
duas propriedades de fluxo. A restrição de capacidade diz simplesmente que o fluxo de um vértice a um outro deve ser 
não negativo e não deve exceder a capacidade dada. A propriedade de conservação de fluxo diz que o fluxo total que 
entra em um vértice exceto a fonte ou o sorvedouro deve ser igual ao fluxo total que sai do vértice — em linguagem 
informal, “fluxo que entra é igual a fluxo que sar”. 


Um exemplo de fluxo 


Uma rede de fluxo pode modelar o problema de transporte rodoviário mostrado na Figura 26.1(a). A Lucky Puck 
Company tem uma fábrica (fonte s) em Vancouver que produz discos para hóquei e um armazém (sorvedouro t) em 
Winnipeg que os mantém em estoque. A Lucky Puck aluga espaço em caminhões de outra empresa para transportar os 
discos da fábrica ao armazém. Como os caminhões percorrem rotas especificadas (arestas) entre cidades (vértices) e 
têm capacidade limitada, a Lucky Puck pode despachar no máximo c(u, v) caixotes por dia entre cada par de cidades 
u ev na Figura 26.1(a). A Lucky Puck não tem nenhum controle sobre essas rotas e capacidades, e, assim, não pode 
alterar a rede de fluxo mostrada na Figura 26.1(a). A empresa precisa determinar o maior número p de caixotes que 
pode despachar por dia e depois produzir essa quantidade, pois não tem sentido produzir mais discos do que é possível 
transportar para o armazém. A Lucky Puck não está preocupada com o tempo gasto para um determinado disco ir da 
fábrica ao armazém; o que interessa à empresa é que p caixotes saiam da fábrica por dia e p caixotes cheguem ao 
armazém por dia. 

Podemos modelar o “fluxo” de remessas com um fluxo nessa rede porque o número de caixotes despachados por 
dia de uma cidade para outra está sujeito a uma restrição de capacidade. Além disso, o modelo deve obedecer à 
conservação de fluxo porque, em regime estável, a taxa de entrada dos discos em uma cidade intermediária tem de ser 
igual à taxa de saída dos discos dessa mesma cidade. Caso contrário, os caixotes se acumularam em cidades 
intermediárias. 


Modelando problemas com arestas antiparalelas 


Suponha que a empresa transportadora oferecesse à Lucky Puck a oportunidade de alugar espaço para 10 
caixotes em caminhões que fazem a rota Edmonton-Calgary. Seria natural adicionar essa oportunidade ao nosso 
exemplo e formar a rede mostrada na Figura 26.2(a). Porém, essa rede apresenta um problema: infringe nossa hipótese 
original, isto é, se uma aresta (v,, v,) E E, então (v,, v,) E E. Denominamos as duas arestas (v,, v,) antiparalelas. 
Assim, se quisermos modelar um problema de fluxo com arestas antiparalelas, temos de transformar a rede em uma 
outra rede equivalente que não contenha nenhuma aresta antiparalela. A Figura 26.2(b) mostra essa rede equivalente. 


(a) (b) 


Figura 26.2 Conversão de uma rede comarestas antiparalelas em uma rede equivalente sem nenhuma aresta antiparalela. (a) Rede de 
fluxo que contémas arestas (v,, v,) e (v,, v, ). (b) Uma rede equivalente sem nenhuma aresta antiparalela. Adicionamos umnovo vértice 
v'e substituímos a aresta (v,, v, ) pelo par de arestas (v,,v) e (v';v, ), ambas com a mesma capacidade de (v,, v, ). 


Escolhemos uma das duas arestas antiparalelas, nesse caso (v,, v,), e a repartimos adicionando um novo vértice v "e 
substituindo a aresta (v,, v,) pelo par de arestas (v,, v) e (v',v,). Também definimos a capacidade das duas novas 
arestas como a capacidade da aresta original. A rede resultante satisfaz a seguinte propriedade: se uma aresta está na 
rede, a aresta inversa não está. O Exercício 26.1-1 pede que você prove que a rede resultante é equivalente à original. 

Assim, vemos que um problema do mundo real poderia ser modelado muito naturalmente com uma rede de arestas 
antiparalelas. Todavia, será conveniente desautorizar arestas antiparalelas e, assim, temos um modo direto de converter 
uma rede que contém arestas antiparalelas em uma rede equivalente sem nenhuma aresta antiparalela. 


Redes com várias fontes e vários sorvedouros 


Um problema de fluxo máximo pode ter várias fontes e vários sorvedouros, em vez de apenas uma unidade de 
cada. Por exemplo, na realidade, a Lucky Puck Company poderia ter um conjunto de m fábricas (s,, s,, ..., Sn) € um 
conjunto de n armazéns ft, t,, ..., t,), como mostra a Figura 26.3(a). Felizmente, esse problema não é mais dificil que 
o fluxo máximo comum. 

Podemos reduzir o problema de determinar um fluxo máximo em uma rede com várias fontes e vários sorvedouros 
a um problema de fluxo máximo comum. A Figura 26.3(b) mostra como converter a rede de (a) em uma rede de fluxo 
comum com somente uma fonte e um sorvedouro. Adicionamos uma superfonte s e acrescentamos uma aresta dirigida 
(s, s;)) com capacidade c(s, s;) = co para cada i = 1, 2, ..., m. Criamos também um novo supersorvedouro t e 
acrescentamos uma aresta dirigida (t,, ) com capacidade c(t,, t) = oo para cada i = 1, 2, ..., n. Intutivamente, qualquer 
fluxo na rede em (a) corresponde a um fluxo na rede em (b), e vice-versa. A única fonte s simplesmente fornece a 
quantidade de fluxo desejada para as várias fontes s,, e, igualmente, o único sorvedouro t consome a quantidade de 
fluxo desejada para os vários sorvedouros t,. O Exercício 26.1-2 pede que você prove formalmente que os dois 
problemas são equivalentes. 
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Figura 26.3 Conversão de um problema de fluxo máximo de várias fontes e vários sorvedouros emum problema com uma única fonte e 
umúnico sorvedouro. (a) Uma rede de fluxo comcinco fontes S= [s,,5,,5;,84,8s y etrês sorvedouros T= ft,,t,,t; y. (b) Uma rede de 
fluxo equivalente com uma única fonte e um único sorvedouro. Adicionamos uma superfonte s e uma aresta com capacidade infinita de s 
até cada uma das várias fontes. Adicionamos também um supersorvedouro t e uma aresta com capacidade infinita de cada um dos 

vários sorvedouros a t. 


Exercícios 


26.1-1 


26.1-2 


26.1-3 


26.1-4 


26.1-5 


26.1-6 


26.1-7 


Mostre que repartir uma aresta n em uma rede de fluxo produz uma rede equivalente. Em linguagem mais 
formal, suponha que a rede de fluxo G contenha uma aresta (u,v) e que criamos uma nova rede de fluxo G” 
criando um novo vértice x e substituindo (u,v) por novas arestas (u,x) e (x,v) com c(u,x) = c(x,v) = c(u,v). 
Mostre que um fluxo máximo em G "tem o mesmo valor que um fluxo máximo em G. 


Estenda as propriedades e definições de fluxo ao problema de várias fontes e vários sorvedouros. Mostre que 
qualquer fluxo em uma rede de fluxo com várias fontes e vários sorvedouros corresponde a um fluxo de valor 
idêntico na rede de fonte única e sorvedouro único obtida pela adição de uma superfonte e um 
supersorvedouro, e vice-versa. 


Suponha que uma rede de fluxo G = (V,E) transgrida a hipótese de que a rede contém um caminho s v + 
para todos os vértices v E V. Seja u um vértice para o qual não há nenhum caminho s wu t. Mostre que deve 
existir um fluxo máximo f em G tal que flu, v) = flv, u) = O para todos os vértices v E V. 


Seja f um fluxo em uma rede e seja a um número real. O múltiplo escalar do fluxo denotado por af é uma 
função de V x Vpara definida por 


(au, v)= a : Hu, v). 


Prove que os fluxos em uma rede formam um conjunto convexo. Isto é, mostre que, se f, e f, são fluxos, 
então af, + (1 — a)f, também é um fluxo para todo a no intervalo O <a <1. 


Enuncie o problema de fluxo máximo como um problema de programação linear. 


O professor Adam tem dois filhos que, infelizmente, não gostam um do outro. O problema é tão grave que 
eles não só se recusam a ir à escola juntos mas, na verdade, cada um se recusa a passar por qualquer quadra 
pela qual o outro tenha passado naquele dia. Porém, eles não se importam se seus caminhos se cruzarem em 
uma esquina. Felizmente, a casa do professor, bem como a escola, está situada em esquina mas, fora isso, ele 
não tem certeza de que será possível enviar os filhos à mesma escola. O professor tem um mapa da cidade. 
Mostre como formular o problema de determinar se os dois filhos do professor podem frequentar a mesma 
escola como um problema de fluxo máximo. 


Suponha que, além das capacidades de arestas, uma rede de fluxo tenha capacidades de vértices. Isto é, 
cada vértice v tem um limite /(v) para a quantidade de fluxo que pode passar por v. Mostre como transformar 
uma rede de fluxo G = (V,E) com capacidades de vértices em uma rede de fluxo equivalente G' = (Vº,E” 
sem capacidade de vértices, tal que um fluxo máximo em G "tenha o mesmo valor que um fluxo máximo em G. 
Quantos vértices e quantas arestas G” tem? 


26.2 OméroDo ForD-FuLKERSON 


Esta seção apresenta o método de Ford e Fulkerson para resolver o problema do fluxo máximo. Nós o 
denominamos “método” em vez de “algoritmo” porque ele abrange diversas implementações com diferentes tempos de 
execução. O método Ford-Fulkerson depende de três ideias importantes que transcendem o método e são relevantes 
para muitos algoritmos e problemas de fluxo: redes residuais, caminhos aumentadores e cortes. Essas ideias são 
essenciais para o importante teorema do fluxo máximo/corte mínimo (Teorema 26.6), que caracteriza o valor de um 
fluxo máximo em termos de cortes da rede de fluxo. Encerramos esta seção apresentando uma implementação 
específica do método Ford-Fulkerson e analisando seu tempo de execução. 


O método Ford-Fulkerson aumenta iterativamente o valor do fluxo. Começamos com flu, v) = O para todo u, v 
E V, que dá um fluxo inicial de valor O. A cada iteração, aumentamos o valor do fluxo em G determinando um 
“caminho aumentador” em uma “rede residual” G,. associada. Tão logo conheçamos as arestas de um caminho 
aumentador em G;, fica fácil identificar arestas específicas em G cujo fluxo podemos mudar e, com isso, aumentar o 
valor do fluxo. Embora cada iteração do método de Ford-Fulkerson aumente o valor do fluxo, veremos que o fluxo em 
qualquer aresta particular de G pode aumentar ou diminuir; pode ser necessário diminuir o fluxo em algumas arestas 
para permitir que um algoritmo envie mais fluxo da fonte ao sorvedouro. Aumentamos repetidamente o fluxo até que a 
rede residual não tenha mais caminhos aumentadores. O teorema do fluxo máximo/corte mínimo mostrará que, no 
término, esse processo produz um fluxo máximo. 


ForD-FULKERSON-METHOD(G, s, t) 


1 inicializar fluxo fcomo O 

2 while existir um caminho aumentador p na rede residual G, 
3 aumentar fluxo f ao longo de p 

4 retumf 


Redes residuais 


Intuitivamente, dados uma rede de fluxo G e um fluxo f, a rede residual G consiste em arestas com capacidades 
que representam como podemos mudar o fluxo em arestas de G. Uma aresta da rede de fluxo pode admitir uma 
quantidade de fluxo adicional igual à capacidade da aresta menos o fluxo nessa aresta. Se tal valor é positivo, 
colocamos essa aresta em G, com uma “capacidade residual” de c, (u, v) = c(u, v) — flu, v). As únicas arestas de G 
que estão em G, são as que podem receber mais fluxo; as arestas (u,v) cujos fluxos são iguais às suas capacidades têm 
ce(u,v) = O e não estão em G,. 

Porém, a rede residual G também pode conter arestas que não estão em G. Quando um algoritmo é aplicado a um 
fluxo com a finalidade de aumentar o fluxo total, pode ser necessário reduzir o fluxo em determinada aresta. Para 
representar uma possível diminuição de um fluxo posítivo flu, v) em uma aresta em G, inserimos uma aresta (v, u) em 
G;com capacidade residual c(v, u) = flu, v) — isto é, uma aresta que pode admitir fluxo na direção oposta a (u, v) e, 
no máximo, eliminar o fluxo em (u, v). 

Essas arestas invertidas na rede residual permitem que um algoritmo envie de volta o fluxo que já enviou ao longo 
de uma aresta. Enviar o fluxo de volta ao longo de uma aresta equivale a diminuir o fluxo na aresta, que é uma 
operação necessária em muitos algoritmos. 

Em linguagem mais formal, suponha que tenhamos uma rede de fluxo G = (V,E) com fonte s e sorvedouro t. Seja f 
um fluxo em G, e considere um par de vértices u, v & V. Definimos a capacidade residual c(u, v) por 


c(u,v)— f(u,v) se(u,v)c E, 
C, (u,v)=4 f(v,u) se(v,u)EE, 
0 caso contrário . (26.2) 


Como supomos que (u, v) & E implica (v, u) € E, exatamente um caso na equação (26.2) se aplica a cada par 
ordenado de vértices. 

Como exemplo da equação (26.2), se c(u, v) = 16 e flu, v) = 11, então podemos aumentar f(u, v) de até cy(u, v) 
= cinco unidades antes de infrmgir a restrição de capacidade da aresta (u, v). Queremos também permitir que um 
algoritmo retorne até 11 unidades de fluxo de v a u e, por consequência, c;(v, u) = 11. 

Dada uma rede de fluxo G = (V, E) e um fluxo f, a rede residual de G induzida por fé G,= (V, E), onde 


E,= uveVxvV: cÁu,v) > 0). (26.3) 


Isto é, como prometido, cada aresta da rede residual, ou aresta residual, pode admitir um fluxo que é maior do 
que 0. A Figura 26.4(a) repete a rede de fluxo G e fluxo f da Figura 26.1(b), e a Figura 26.4(b) mostra a rede residual 
G, correspondente. As arestas em E, são arestas em E ou são suas inversas e, assim, 


Ej<2IE 


Observe que a rede residual G é semelhante a uma rede de fluxo com capacidades dadas por c,. Ela não satisfaz 
nossa definção de rede de fluxo porque pode conter uma aresta (u, v), bem como sua inversa, (v, u). Fora essa 
diferença, uma rede residual tem as mesmas propriedades que uma rede de fluxo, e podemos definir um fluxo na rede 
residual como um fluxo que satisfaz a definição de um fluxo, porém em relação às capacidades c;na rede G, 

Um fluxo em uma rede residual nos dá um guia para adicionar fluxo à rede de fluxo original. Se f é um fluxo em G e 
f”é um fluxo na rede residual G correspondente, definimos / 1 f*, o aumento do fluxo fde f”, como a função de V x 
Vem, definida por 


Hu,v+f(u,v)-f(v,u) se(u,v)EE, 


0) caso contrário . 


(1TfXu,0)= (26.4) 


A intuição que fundamenta essa definição decorre da definição da rede residual. Aumentamos o fluxo em (u, v) de 
f (u, v) mas o reduzimos de f (u, v) porque empurrar fluxo pela aresta invertida na rede residual significa reduzir o 
fluxo na rede original. Empurrar fluxo pela aresta invertida na rede residual é uma operação também conhecida como 
cancelamento. Por exemplo, enviar cinco caixotes de discos de hóquey de u a v e enviar dois caixotes de v a u seria o 
mesmo (da perspectiva do resultado final) que enviar três caixotes de u a v e nenhum de v a u. Cancelamento desse 
tipo é crucial para qualquer algoritmo de fluxo máximo. 


$7 
2 
Va V 
(+) 11/14 N 2 
(a) 


(vo) 
11/14 No) 
(c) 


Figura 26.4 (a) Rede de fluxos Ge f da Figura 26.1(b). (b) Rede residual Gf com caminho aumentador p sombreado; sua capacidade 
residual é cr(p)=cr(v,, vs; )= 4. Arestas com capacidade residual igual a 0, como (y,, v; ), não são mostradas, uma convenção que 
seguiremos no restante desta seção. (c) O fluxo em Gque resulta de aumentar essa rede ao logo do caminho p de uma quantidade 
equivalente à sua capacidade residual, 4. Arestas que não transportam nenhum fluxo, como (v, , v, ), são identificadas somente por suas 
capacidades, uma outra convenção que seguimos neste capítulo. (d) Rede residual induzida pelo fluxo em (c). 


Lema 26.1 


Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro t, e seja f um fluxo em G. Seja G,a rede residual de G 
induzida por fe seja f” um fluxo em G, Então, a função 1 f “definida na equação (26.4) é um fluxo em G com valor | f 
MH IHAHISAA 


Prova Em primeiro lugar, temos de verificar se f 7 f” obedece às restrições de capacidade para cada aresta em E e 
conservação de fluxo em cada vértice em V— (s, t+. 


Para a restrição de capacidade, observe em primeiro lugar que, se (u, v) E E, então c;(v, u) = flu, v). Portanto, temos 
f(v,u)<ce(v,u)=f(u, v), e, por consequência, 
(uv) =Hu,v+f(u,v) —f(u,v) (pela equação (26.4)) 


2fHu,v)+f(u,v) —fu,v) (porquef(u,v)<f(u,v)) 


=f(u,0) 
SO. 


Além disso, (1) (u, v) 


(1) (u,0) 
=f(u,v)+f(u,v) -f(u,v) (pela equação (26.4)) 
<f(u,v) +f(u,v) (porque os fluxos são não negativos) 
<sf(v,u) + cAu, v) (restrição de capacidade) 


=f(u,v)+c(u,v) —fu,v) (definição de c) 
=c(u,v) 


Para conservação de fluxo, como fe f” obedecem à conservação de fluxo, temos que, para todo u E V- (st), 


str 1 FuD)=> Hu, v)+f(u,0)-— f'(o, u) 


. SD fot D fue) (oa 
SD ftoa + Fe) Fu) 
DU) +07) fuo) 
= DU TH Xv,u), 


onde a terceira linha decorre da segunda por conservação de fluxo. 

Finalmente, calculamos o valor de f 1 f“. Lembre-se de que desautorizamos arestas antiparalelas em G (mas não 
em G e, por consequência, para cada vértice v & V, sabemos que pode haver uma aresta (s, v) ou (v, s), mas nunca 
ambas. Definimos V, = tv :(s,v) E E) como o conjunto de vértices com arestas que saem de se V,= fv : (v,s) E 
E) como o conjunto de vértices com arestas que se dirigem a s. Temos V, U V, € Ve, como desautorizamos arestas 
antiparalelas, V, N V,= 2. Agora calculamos 


PASNRO DADA CD BATA CO 
veV veV 26.5 
=DUTINS OD TIO, e 


ve 


onde a segunda linha decorre de (f1f (w,x) ser O se (w, x) É E. Agora aplicamos a definção de f 1 f” à equação 
(26.5) e reordenamos e agrupamos termos para obter 


LETEI 
=5 (Hs + f(sv)-f'(0,8)) AA Ho) + os) fts v)) 


vev, 


=dfto +5$ (s,0)- sro 9) 
Dra, 0,5 2 0,5 DIC 5,0) 
= Seo; E f(o,s) | 
o +EF6, ne e) af (v,5)— 2a (0,8) 
Ri 5,0) afto, + PA fis 3 fo). (26.6) 


EV,UV, 


Na equação (26.6), podemos estender todos os quatro somatórios para V, já que cada termo adicional tem valor 
0. (O Exercício 26.2-1 pede que você prove isso formalmente.) Assim, temos 


Fte 2 Mom) Rato + 248,0) Duf os) 267) 
SFF. 


Caminhos aumentadores 


Dados uma rede de fluxo G = (V, E) e um fluxo f, um caminho aumentador p é um caminho simples de s a t na 
rede residual G,. Pela definção da rede residual, podemos aumentar o fluxo em uma aresta (u, v) de um caminho 
aumentador até c;(u, v) sem infringir a restrição de capacidade imposta a qualquer (u, v) e (v, u) que está na rede de 
fluxo original G. 

O caminho sombreado na Figura 26.4(b) é um caminho aumentador. Tratando a rede residual G,na figura como 
uma rede de fluxo, podemos aumentar o fluxo que percorre cada aresta desse caminho de até quatro unidades sem 
infringir a restrição de capacidade, já que a menor capacidade residual nesse caminho é c;(v,, v;) = 4. A quantidade 
máxima possível de aumento para o fluxo em cada aresta de um caminho aumentador p é denominada capacidade 
residual de p e é dada por 


ci(p) = mintc;(u, v) : (u, v) está emp). 


O lema a segurr, cuja prova deixamos para o Exercício 26.2-7, torna esse argumento mais preciso. 


Lema 26.2 


Seja G = (V, E) uma rede de fluxo, seja f um fluxo em G e seja p um caminho aumentador em G;,. Defina uma função 
ES => por 


; c(p) se(u,v) estáemp, 
fku,0)= 


caso contrário . (26.8) 
Então, f, é um fluxo em G com valor |f,| = c;(p) > 0. 


O corolário a seguir mostra que, se aumentarmos fadicionando f,, obtemos um outro fluxo em G cujo valor está 
mais próximo do máximo. A Figura 26.4(c) mostra o resultado de aumentar o fluxo f da Figura 26.4(a) adicionando o 
fluxo f, da Figura 26.4(b), e a Figura 26.4(d) mostra a rede residual resultante. 


Corolário 26.3 


Seja G = (V, E) uma rede de fluxo, seja / um fluxo em G e seja p um caminho aumentador em G,. Seja f, definido 
como na equação (26.8) e suponha que aumentamos f adicionando f,. Então, a função ff f, é um fluxo em G com valor 


AH >17. 


Prova Imediata, pelos Lemas 26.1 e 26.2. 


Cortes de redes de fluxo 


O método Ford-Fulkerson aumenta repetidamente o fluxo ao longo de caminhos aumentadores até encontrar um 
fluxo máximo. Como sabemos que, quando o algoritmo termina, realmente encontramos um fluxo máximo? O teorema 
do fluxo máximo/corte mínimo, que demonstraremos em breve, nos diz que um fluxo é máximo se e somente se sua rede 
residual não contém nenhum caminho aumentador. Entretanto, para provar esse teorema, devemos primeiro explorar a 
noção de corte de uma rede de fluxo. 

Um corte (S, T) de uma rede de fluxo G = (V, E) é uma partição de Vem SeT=V-Stalques E Set ET. 
(Essa definição é semelhante à definição de “corte” que usamos para árvores geradoras mínimas no Capítulo 23, exceto 
que aqui estamos cortando um grafo dirigido em vez de um grafo não dirigido, e insistimos que s E Set E T) Se fé 
um fluxo, então o fluxo líquido f(S, T). que passa pelo corte é definido como 


HST=5 5 Fu,0)-3 55 F(u,0). (26.9) 


ues veT ues veT 


A capacidade do corte (8, T) é 
ds Tj= > ctg). (26.10) 


ues veT 

Um corte mínimo de uma rede é um corte cuja capacidade é mínima em relação a todos os cortes da rede. 

A assimetria entre as definições de fluxo e a capacidade de um corte é intencional e importante. Quando se trata de 
capacidade, contamos somente as capacidades das arestas que vão de S a T, ignorando arestas na direção inversa. 
Quando se trata de fluxo, consideramos o fluxo de S a 7 menos o fluxo na direção inversa de Ta S. 

A razão para essa diferença ficará clara mais adiante nesta seção. 

A Figura 26.5 mostra o corte ((s, V,, V5+, LV3, V4, t)) na rede de fluxo da Figura 26.1(b). O fluxo líquido por esse 
corte é 


Hov)+Hv,v) —-Hv,v)- 2 + —4 
=19, 


EICDWD]Z][Z] 


Figura 26.5 Umcorte (S, 7) na rede de fluxo da Figura 26.1(b), onde S= (s,v,,v, ) e T= fv,,v,, 1). Os vértices emsS são pretos, e os 
vértices em T são brancos. O fluxo líquido por (S, T) éf(S, T) = 19,e a capacidade é c(S, T)=26. 


O lema a seguir mostra que, para um fluxo f dado, o fluxo líquido por qualquer corte é o mesmo, e é iguala |f|, O 
valor do fluxo. 


Lema 26.4 
Seja f um fluxo de uma rede de fluxo G com fonte s e sorvedouro t, e seja (S, 7) qualquer corte de G. Então, o fluxo 
líquido por (S, T) é AS, 1) =|. 


Prova Podemos reescrever a condição de conservação de fluxo para qualquer nó u & V-— (s, t; como 


> F(u,0)- duto, u)=0. (26.11) 


vev 


Adotando a definição de | f | dada pela equação (26.1) e somando o lado esquerdo da equação (26.11), que é 
igual a 0, o somatório para todos os vértices em S — (sy dá 


IfE-SS f(s0)- Dfo)+ > Eae Deu) 


veV veV ueS—(s) veV 


Expandindo o somatório do lado direito e reagrupando termos, obtemos 


Lfi= 2ufts v)— duflo, JH > > Fu) 3 > Fv,u) 


uES—(s) veV uES—s) veV 


-Efftom - s f(u,v)|— Ri flo, )+ >, fo) 


ueS—[s) veV ueS—(s) 


=5,>, Hu) 5, fov,u). 


veV ues vEV uES 


Como V=SUTesSNT=o0/, podemos separar cada somatório em V em somatórios em S e T para obter 


=D FU Fo) Fo) DD flor) 


vES uES vET uES vES vET ues 


=D fo), Fou) 


vET ueS vET ues 


+25 600) EE ro, o) 


vES ues vES uEs 


Os dois somatórios entre parênteses são, na verdade, iguais, já que para todos os vértices x, y E S o termo f(x, y) 
aparece uma vez em cada somatório. Por consequência, esses somatórios cancelam um ao outro e temos 


[fI =5 > f(0,m)-5 5 Fo,u) 


uES vET uES vET 


= PD) 


Um corolário para o Lema 26.4 mostra como podemos usar capacidades de corte para limitar o valor de um fluxo. 


Corolário 26.5 
O valor de qualquer fluxo f em uma rede de fluxo G é limitado por cima pela capacidade de qualquer corte de G. 


Prova Seja (S, T) qualquer corte de G e seja f qualquer fluxo. Pelo Lema 26.4 e pela restrição de capacidade, 
fI=fS,T) 
DD two DD fon 


ueS veT ueS veT 


<>, f(u,0) 


ueS veT 


a > 5 c(u,0) 


ueS veT 
e é do UR 


O Corolário 26.5 produz a seguinte consequência imediata: o valor de um fluxo máximo em uma rede é limitado 
por cima pela capacidade de um corte mínimo da rede. O importante teorema de fluxo máximo/corte mínimo que 
enunciamos e provamos agora diz que o valor de um fluxo máximo é de fato igual à capacidade de um corte mínimo. 


Teorema 26.6 (Teorema do fluxo máximo/corte mínimo) 


Se f é um fluxo em uma rede de fluxo G = (V, E) com fonte s e sorvedouro t, então as seguintes condições são 
equivalentes: 


1. fé um fluxo máximo em G. 
2. Arede residual G;não contém nenhum caminho aumentador. 
3. |f|=c(S, 7) para algum corte (S, 7) de G. 


Prova (1) > (2): Suponha, por contradição, que f seja um fluxo máximo em G, mas que G, tenha um caminho 
aumentador p. Então, pelo Corolário 26.3, o fluxo encontrado aumentando f com a adição de f., onde f, é dado pela 
equação (26.8), é um fluxo em G com valor estritamente maior que | f |, o que contradiz a hipótese de que f seja um 
fluxo máximo. 


(2)= (3): Suponha que G;não tenha nenhum caminho aumentador, isto é, que Gjnão contenha nenhum caminho de 
sat. Defina 


S= tv € V: existe um caminho de sa v em G,) 


eT=V-s. A partição (S, T) é um corte: temos s E S trivialmente e t É S porque não existe nenhum caminho de s a £ 
em G,. Agora considere um par de vértices u E Sev E T. Se (u,v) E E, devemos ter f(v,u) = c(v,u), já que, caso 
contrário, (u,v) & E,, o que colocaria v no conjunto S. Se (v, u) E E, devemos ter f(v,u) = 0, porque, caso contrário, 
ce(u,v) = flv,u) seria positivo e teríamos (u, v) E E, o que colocaria v em S. É claro que, se nem (u,v) nem (v,u) está 
em E, então f(u,v) =f(v, u) = O. Assim, temos 


(5,7) =5 5 Hu) 5 Fou) 


ueS veT vET ueS 
=D Deu) 550 

ueS veT veT ueS 
= (5,1). 


Portanto, pelo Lema 26.4, |f|=HS, D=c(S, 7). 


(3) => (1): Pelo Corolário 26.5, |f| c(S, T) para todos os cortes (S, 7). Assim, a condição || = c(S, T) implica que f 
seja um fluxo máximo. 


O algoritmo básico de Ford e Fulkerson 


Em cada iteração do método Ford-Fulkerson, encontramos algum caminho aumentador p e usamos p para 
modificar o fluxo f. Como sugerem o Lema 26.2 e o Corolário 26.3, substituímos f por 7 f, e obtemos um novo fluxo 
cujo valor é | /| + If]. A implementação do método apresentada a seguir calcula o fluxo máximo em uma rede de fluxo 
G = (V,E) atualizando o atributo de fonte (u,v).f para cada aresta (u,v) E E. 1 

Se (u,v) É E, supomos implicitamente que (u,v).f = O. Consideramos também que temos as capacidades c(u,v) 
juntamente com a rede de fluxo, e c(u,v) = O se (u,v) £ E. Calculamos a capacidade residual c,(u,v) de acordo com a 
fórmula (26.2). A expressão c(p) no código serve apenas como uma variável temporária que armazena a capacidade 
residual do caminho p. 


FoRD-FULKERSON(G, s, £) 


1 forcada aresta (u,v) E G.E 
2 (u,v)f=0 

3 while existir um caminho p de s a t na rede residual G, 
4 ckp) = mintc,(u, v) : (u,v) está em p) 
5 for cada aresta (u, v) em p 
6 if (u,0) E E 

7 (u,0)f= (u,0)f+ c(p) 
8 else (v,u)f= (v, u).f — AU) 


O algoritmo de Forp-FuLxerson simplesmente expande o pseudocódigo Forp-FuLker-son-Mernop dado antes. A 
Figura 26.6 mostra o resultado de cada iteração em um exemplo de execução. As linhas 1-2 inicializam o fluxo f como 
0. O laço while das linhas 3-8 encontra repetidamente um caminho aumentador p em G,e aumenta o fluxo f ao longo 
de p adicionando a capacidade residual c;(p). Cada aresta residual no caminho p é uma aresta na rede original ou é a 
inversa de uma aresta na rede original . As linhas 6-8 atualizam o fluxo adequadamente em cada caso, adicionando 
fluxo quando a aresta residual é uma aresta original e subtraindo, caso contrário. Quando não existe nenhum caminho 
aumentador, o fluxo f é um fluxo máximo. 


Figura 26.6 Execução do algoritmo básico de Ford-Fulkerson. (a)-(e) Iterações sucessivas do laço while. O lado esquerdo de cada parte 
mostra a rede residual Gyda linha 3 com um caminho aumentador sombreado p. O lado direito de cada parte mostra o novo fluxo fque 
resulta do aumento de fpela adição de +. A rede residual em (a) é a rede de entrada G. 


Figura 26 .6, (continuação) (f) Rede residual no último teste do laço while. Ela não tem nenhum caminho aumentador e, então, o fluxo f 
mostrado em (e) é um fluxo máximo. O valor do fluxo máximo encontrado é 23. 


Análise de Ford-Fulkerson 


O tempo de execução de Forp-FuLkerson depende de como determinamos o caminho aumentador p na linha 3. Se 
o escolhermos mal, o algoritmo pode nem mesmo terminar: o valor do fluxo aumentará com os aumentos sucessivos, 
mas não precisa sequer convergir para o valor de fluxo máximo.2 Porém, se determinarmos o caminho aumentador 
usando uma busca em largura (que vimos na Seção 22.2), o algoritmo será executado em tempo polinomial. Antes de 
provar esse resultado, obtemos um limite simples para o caso no qual escolhemos o caminho aumentador 
arbitrariamente e todas as capacidades são inteiras. 

Na prática, as capacidades que aparecem nos problemas de fluxo máximo costumam ser números inteiros. Se as 
capacidades são números racionais, podemos aplicar uma transformação de escala adequada para transformá-los em 
números inteiros. Se /* denotar um fluxo máximo na rede transformada, então uma implementação direta de Forp- 
FuLkerson executa O laço while das linhas 3-8 no máximo | f *| vezes, já que o valor do fluxo aumenta de, no mínimo, 
uma unidade em cada iteração. 

Podemos realizar eficientemente o trabalho executado dentro do laço while se implementarmos a rede de fluxo G 
= (V, E) com a estrutura de dados correta e encontrarmos um caminho aumentador por um algoritmo de tempo linear. 
Vamos supor que mantemos uma estrutura de dados correspondente a um grafo dirigido G' = (V, E), onde E" = ((u, 
v):(u,v) E E ou(v, u) E Eb. As arestas na rede G também são arestas em G” e, portanto, é fácil manter 
capacidades e fluxos nessa estrutura de dados. Dado um fluxo f/ em G, as arestas na rede residual G, consistem em 
todas as arestas (u, v) de G” tais que c(u,v) > 0, onde c, está de acordo com a equação (26.2). Portanto, o tempo 
para encontrar um caminho em uma rede residual é O(V + E” = O(E) se usarmos busca em profundidade ou busca em 
largura. Assim, cada iteração do laço while demora o tempo O(E), bem como a inicialização nas linhas 1-2, o que 
resulta no tempo total de execução O(E | *|) para o algoritmo de Forp-FuLkerson . 

Quando as capacidades são números inteiros e o valor de fluxo ótimo | f *| é pequeno, o tempo de execução do 
algoritmo de Ford-Fulkerson é bom. A Figura 26.7(a) mostra um exemplo do que pode acontecer em uma rede de 
fluxo simples para a qual | f *| é grande. Um fluxo máximo nessa rede tem valor 2.000.000: 1.000.000 unidades de 
fluxo que percorrem o caminho s > u — t, outras 1.000.000 unidades percorrem o caminho s —> v — £t. Se o primeiro 
caminho aumentador encontrado por Forp-FuLkerson É s — u > v — t, mostrado na Figura 26.7(a), o fluxo tem valor 1 
após a primeira iteração. A rede residual resultante é mostrada na Figura 26.7(b). Se a segunda iteração encontra o 
caminho aumentador s > v > u — t, como mostra a Figura 26.7(b), então o fluxo tem valor 2. A Figura 26.7(c) 
mostra a rede residual resultante. Podemos continuar, escolhendo o caminho aumentador s — u — v — t nas iterações 
ímpares e o caminho aumentador s > v — u — t nas iterações pares. Executaríamos ao todo 2.000.000 aumentos que 
elevariam o valor do fluxo de apenas uma unidade de cada vez. 


O algoritmo de Edmonds-Karp 


Podemos melhorar o limite em Forp-FuLkerson encontrando o caminho aumentador p na linha 3 com uma busca em 
largura. Isto é, escolhemos o caminho aumentador como o caminho mínimo des a t na rede residual, onde cada aresta 
tem distância (peso) unitária. O método Ford-Fulkerson assim implementado é denominado algoritmo de Edmonds e 
Karp. Agora, provaremos que o algoritmo Edmonds-K arp é executado no tempo O(VE,). 

A análise depende das distâncias até os vértices na rede residual G,. O lema a seguir usa a notação dí(u,v) para a 
distância do caminho mínimo de u a v em G, onde cada aresta tem distância unitária. 


Lema 26.7 


Se o algoritmo Edmonds-Karp é executado em uma rede de fluxo G = (V, E) com fonte s e sorvedouro t, então 
para todos os vértices v € V — Ís, t), a distância do caminho mínimo df (s,v) na rede residual G, aumenta 
monotonicamente com cada aumento de fluxo. 


Prova Vamos supor que, para algum vértice v &E V—fs, t), existe um aumento de fluxo que provoca diminuição na 
distância de caminho mínimo de s a v e então deduziremos uma contradição. Seja f o fluxo imediatamente antes do 


primeiro aumento que diminui alguma distância de caminho mínimo e seja f” o fluxo imediatamente após. Seja v o 
vértice com o mínimo df (s, v), cuja distância foi diminuída pelo aumento, de modo que d” (s, v)< dis, v). Seja p= 
u — v um caminho mínimo de s a v em Gp, de modo que (u, v) E Ep e 


ôp(s, u) = As, v) — 1. (26.12) 


Em razão do modo como escolhemos v, sabemos que a distância do vértice u em relação à fonte s não dimmum, 
isto é, 


Õus, u) > ôAs, u). (26.13) 


(a) (b) (c) 


Figura 26.7 (a) Uma rede de fluxo para a qual Forn-FuLkerson pode levar tempo (E |f*, onde f* é um fluxo máximo, mostrado aqui com |f*| 
= 2.000.000. O caminho sombreado é um caminho aumentador com capacidade residual 1. (b) A rede residual resultante, com outro 
caminho aumentador cuja capacidade residual é 1. (c) A rede residual resultante. 


Afirmamos que (u, v) € E,. Por quê? Se tivéssemos (u, v) E E,, então teriamos também 


os, v) < o(s, u) +1 (pelo Lema 24.10, desigualdade triangular) 
< ôus, u) +1 (pela desigualdade (26.13)) 
= ls, v) (pela equação (26.12)) , 


o que contradiz nossa hipótese que d”(s, v) < df” (s, v). 

Como podemos ter (u, v) € E,e (u, v) E Ep? O aumento deve ter aumentado o fluxo de v para u. O algoritmo 
Edmonds-K arp sempre aumenta o fluxo ao longo de caminhos mínimos e, portanto, aumentou ao longo de um caminho 
mínimo de s a u em G que tem (v, u) como sua última aresta. Assim, 


ô,(s,u)=0,(s,u) — 1 
< Ô,. (s,u) — 1 (pela desigualdade (26.13)) 
= Ô,. (s,u) — 2 (pela equação (26.12), 


o que contradiz nossa hipótese de que df” (s, v) < dís, v). Concluímos que a hipótese de que tal vértice v existe é 
incorreta. 


O próximo teorema limita o número de iterações do algoritmo de Edmonds-Karp. 


Teorema 26.8 
Se o algoritmo Edmonds-Karp é executado em uma rede de fluxo G = (V, E) com fonte s e sorvedouro t, então o 


número total de aumentos de fluxo executados pelo algoritmo é no máximo O(V E). 


Prova Dizemos que uma aresta (u, v) em uma rede residual G é crítica em um caminho aumentador p se a capacidade 
residual de p é a capacidade residual de (u, v), isto é, se c(p) = c;(u, v). Depois de aumentarmos o fluxo ao longo de 


um caminho aumentador, qualquer aresta crítica no caminho desaparece da rede residual. Além disso, no mínimo uma 
aresta em qualquer caminho aumentador deve ser crítica. Mostraremos que cada uma das |E] arestas pode se tornar 
crítica no máximo |V|/2 vezes. 


Sejam u e v vértices em V que estão conectados por uma aresta em E. Visto que caminhos aumentadores são caminhos 
mínimos, quando (u, v) é crítica pela primeira vez, temos 


ô(s,v)=ô/s,u) + 1. 


Uma vez aumentado o fluxo, a aresta (u, v) desaparece da rede residual. Ela só pode reaparecer mais tarde em um 
outro caminho aumentador depois que o fluxo de u a v for diminuído, o que ocorre somente se (v, u) aparecer em um 
caminho aumentador. Se f” é o fluxo em G quando esse evento ocorre, então temos 


ô,(s, u) = ô(s, v) + 1. 


Visto que ô e (s,v) < ô, (s, v) pelo Lema 26.7, temos 
ô, (s, u)=ô,(s,v) +1 

<ô (s,v)+1 

—6,(s.u)+2. 


Consequentemente, a partir do momento em que (u, v) se torna crítica até o momento em que ela se torna crítica outra 
vez, a distância de u em relação à fonte aumenta de no mínimo 2. A distância de u em relação à fonte é micialmente no 
mínimo O. Os vértices intermediários em um caminho mínimo de s a u não podem conter s, u ou t (visto que (u, v) em 
um caminho aumentador implica que u + t). Então, até u não poder mais ser alcançado da fonte, se é que isso ocorre, 
sua distância é no máximo |V — 2. Portanto, depois da primeira vez que (u, v) se torna crítica, ela só pode tornar-se 
crítica novamente no máximo mais (|V| — 2)/2 = |V//2 — 1 vezes para um total de no máximo |V| /2 vezes. Visto que em 
uma rede residual há O(E) pares de vértices que podem ter uma aresta entre eles, o número total de arestas críticas 
durante toda a execução do algoritmo Edmonds-Karp é O(V E). Cada caminho aumentador tem no mínimo uma aresta 
crítica e, consequentemente, o teorema decorre. 


Como podemos implementar cada iteração de Forp-FuLxerson no tempo O(E) quando encontramos o caminho 
aumentador por busca em largura, o tempo de execução total do algoritmo de Edmonds-Karp é O(VE,). Veremos que 
os algoritmos push-relabel podem produzir limites amda melhores. O algoritmo da Seção 26.4 dá um método para 
conseguir um tempo de execução O(V, E), que forma a base para o algoritmo de tempo O(V,) da Seção 26.5. 


Exercícios 


26.2-1 Prove que os somatórios na equação (26.6) são iguais aos somatórios na equação (26.7). 
26.2-2 Na Figura 26.1(b), qual é o fluxo pelo corte ((s, v,, V4y, tv, V3, 5)? Qualé a capacidade desse corte? 
26.2-3 Mostre a execução do algoritmo Edmonds-Karp na rede de fluxo da Figura 26.1(a). 


26.2-4 No exemplo da Figura 26.6, qual é o corte mínimo correspondente ao fluxo máximo mostrado? Dos caminhos 
aumentadores que aparecem no exemplo, qual é o que cancela o fluxo? 


26.2-5 Lembre-se de que a construção na Seção 26.1 que converte uma rede de fluxo com várias fontes e vários 
sorvedouros em uma rede com fonte única e sorvedouro único adiciona arestas com capacidade infinta. Prove 
que qualquer fluxo na rede resultante tem um valor finito se as arestas da rede original com várias fontes e 
vários sorvedouros têm capacidade finita. 


26.2-6 Suponha que cada fonte s, em uma rede de fluxo com várias fontes e vários sorvedouros produza exatamente 
p; unidades de fluxo, de modo que Dye Wf (si, v) = pi. Suponha também que cada sorvedouro í, consuma 


exatamente q; unidades, de modo que Dye Wf (vs 5) = qj, onde Dm: = Dia Mostre como converter o 
problema de encontrar um fluxo f que obedeça a essas restrições adicionais no problema de encontrar um 
fluxo máximo em uma rede de fluxo com fonte única e sorvedouro único. 


26.2-7 Proveo Lema 26.2. 


26.2-8 Suponha que redefinimos a rede residual para desautorizar arestas que entrem em s. Prove que o 
procedimento Forp-FuLerson ainda calcula corretamente um fluxo máximo. 


26.2-9 Suponha que fe f"sejam fluxos em uma rede G e que calculamos o fluxo f ff“. O fluxo aumentado satisfaz a 
propriedade de conservação de fluxo? Satisfaz a restrição de capacidade? 


26.2-10 Mostre como encontrar um fluxo máximo em uma rede G = (V, E) por uma sequência de no máximo |E] 
caminhos aumentadores. (Sugestão: Determine os caminhos depois de determinar o fluxo máximo.) 


26.2-11 A conectividade de aresta de um grafo não dirigido é o número mínimo k de arestas que devem ser 
removidas para desconectar o grafo. Por exemplo, a conectividade de aresta de uma árvore é 1, e a 
conectividade de aresta de uma cadeia cíclica de vértices é 2. Mostre como determinar a conectividade de 
aresta de um grafo não dirigido G = (V, E) executando um algoritmo de fluxo máximo em, no máximo, |V] 
redes de fluxo, cada uma com O(V) vértices e O(E) arestas. 


26.2-12 Suponha que temos uma rede de fluxo G cujas capacidades são todas inteiras, e G tenha arestas que entram 
na fonte s. Seja f um fluxo em G no qual uma das arestas (v, s) que entram na fonte tem f(v, s) = 1. Prove que 
deve existir um outro fluxo f” com f (v,s) = O tal que |f|=|f 7. Dê um algoritmo de tempo O(E) para 
calcular f *, dado f. 


26.2-13 Suponha que você deseje encontrar, entre todos os cortes mínimos em uma rede de fluxo G, um que contenha 
o menor número de arestas. Mostre como modificar as capacidades de G para criar uma nova rede de fluxo 
G "na qual qualquer corte mínimo em G "seja um corte com o menor número de arestas em G. 


26.3 [EMPARELHAMENTO MÁXIMO EM GRAFO BIPARTIDO 


Alguns problemas combinatórios podem ser facilmente expressos como problemas de fluxo máximo. O problema 
de fluxo máximo de várias fontes e vários sorvedouros da Seção 26.1 nos deu um exemplo. Alguns outros problemas 
combinatórios aparentemente têm pouco a ver com redes de fluxo, mas, na verdade, podem ser reduzidos a problemas 
de fluxo máximo. Esta seção apresenta um desses problemas: encontrar um emparelhamento máximo em um grafo 
bipartido. Para resolver esse problema, aproveitaremos uma propriedade de integralidade proporcionada pelo método 
de Ford-Fulkerson. Também veremos como usar o método de Ford-Fulkerson para resolver o problema de 
emparelhamento máximo em grafo bipartido em um grafo G = (V, E) no tempo O(V E). 


O problema de emparelhamento máximo em grafo bipartido 


Dado um grafo não dirigido G = (V, E), um emparelhamento é um subconjunto de arestas M & E tal que, para 
todos os vértices v E V, no máximo uma aresta de M é incidente em v. Dizemos que um vértice v E V é 
emparelhado pelo emparelhamento M se alguma aresta em M é incidente em v; caso contrário, v é não 


emparelhado. Um emparelhamento máximo é um emparelhamento de cardinalidade máxima, isto é, um 
emparelhamento M tal que, para qualquer emparelhamento M”, temos |M| > |M7. Nesta seção, restringiremos nossa 
atenção a determinar emparelhamentos máximos em grafos bipartidos: grafos nos quais o conjunto de vértices pode ser 
particionado em V=L U R, onde L e R são disjuntos e todas as arestas em E passam entre L e R. Suporemos ainda 
que todo vértice em V tem no mínimo uma aresta incidente. A Figura 26.8 ilustra a noção de emparelhamento em um 
grafo bipartido. 


(a) (b) (c) 


Figura 26.8 Um grafo bipartido G = (V, E) compartição de vértice V=L U R. (a) Um emparelhamento com cardinalidade 2, indicado por 
arestas sombreadas. (b) Um emparelhamento máximo com cardinalidade 3. (c) Rede de fluxo correspondente G' mostrando um fluxo 
máximo. Cada aresta tem capacidade unitária. Arestas sombreadas têm fluxo de 1, e as outras arestas não transportam nenhum fluxo. As 
arestas sombreadas de L a R correspondemaàs do emparelhamento máximo em (b). 


O problema de encontrar um emparelhamento máximo em um grafo bipartido tem muitas aplicações práticas. 
Como exemplo, poderíamos considerar o emparelhamento de um conjunto L de máquinas com um conjunto R de 
tarefas que devem ser executadas simultaneamente. Consideramos que a presença da aresta (u, v) em E significa que 
uma determinada máquina u E L é capaz de executar uma dada tarefa v E R. Um emparelhamento máximo atribui 
trabalho ao maior número de máquinas possível. 


Encontrando emparelhamento máximo em grafo bipartido 


Podemos usar o método Ford-Fulkerson para encontrar emparelhamento máximo em um grafo bipartido não 
dirigido G = (V, E) em tempo polinomial em |V| e |E|. O truque é construir uma rede de fluxo na qual os fluxos 
correspondem a emparelhamentos, como mostra a Figura 26.8. Definimos a rede de fluxo correspondente G' = (V”, 
E para o grafo bipartido G da segunte maneira: sejam a fonte s e o sorvedouro £ novos vértices não pertencentes a V, 
esejaV'=VU Ís,t). Se a partição de vértices de GéV=L U R, as arestas dirigidas de G' são as arestas de E, 
dirigidas de L para R, juntamente com |V] novas arestas dirigidas: 


E'=((su:uel)Ul(uo): (uv) cElUl(vt):vE R). 


Para concluir a construção, atribuímos capacidade unitária a cada aresta em E”. Visto que cada vértice em V tem 
no mínimo uma aresta incidente, |E| > |V/2. Assim, |E|< |E'|= |E| + |V| < 3/E] e, então, |E | = Q(E). 

O lema a seguir mostra que um emparelhamento em G corresponde diretamente a um fluxo na rede de fluxo G" 
correspondente em G. Dizemos que um fluxo f em uma rede de fluxo G = (V, E) é de valor inteiro se f(u, v) é um 
inteiro para todo (u, v) E Vx V. 


Lema 26.9 


Seja G = (V, E) um grafo bipartido com partição de vértices V=L U R eseja G'=(V', E” sua rede de fluxo 
correspondente. Se M é um emparelhamento em G, então existe um fluxo de valor inteiro fem G” com valor | f| = IM). 
Ao contrário, se f é um fluxo de valor mnteiro em G”, então existe um emparelhamento M em G com cardinalidade |M| = 


ft. 


Prova Primeiro mostramos que um emparelhamento M em G corresponde a um fluxo f de valor inteiro em G”. Defina f 
da seguinte maneira: se (u, v) E M, então Ms, u) = flu, v) = flv, t) = 1. Para todas as outras arestas flu, v) = 0, 
definimos f(u, v) = 0. É simples verificar que f satisfaz a restrição de capacidade e conservação de fluxo. 


Intuitivamente, cada aresta (u, v) & M corresponde a uma unidade de fluxo em G* que percorre o caminho s > u > v 
— t. Além disso, os caminhos induzidos por arestas em M são de vértices disjuntos, exceto para s e t. O fluxo líquido 
pelo corte (L U fsy;, RU ff)) é iguala IM]; assim, pelo Lema 26.4, o valor do fluxo é || = IM]. 

Para provar o inverso, seja f um fluxo de valor inteiro em Ge seja 


M=((u,v:ueLveR,eflu,v)>0). 


Cada vértice u E L tem somente uma aresta de entrada, isto é, (s, u), e sua capacidade é 1. Assim, em cada u E L 
entra no máximo uma unidade de fluxo positivo e, se uma unidade de fluxo positivo entra, pela conservação de fluxo 
uma unidade de fluxo positivo deve sair. Além disso, visto que f tem valor inteiro, para cada u €& L, a única unidade de 
fluxo pode entrar em no máximo uma aresta e pode sair no máximo de uma aresta. Assim, uma unidade de fluxo 
positivo entra em u se e somente se existe exatamente um vértice v E R tal que flu, v) = 1, e no máximo uma aresta 
que sai de cada u E L transporta fluxo positivo. Um argumento simétrico aplica-se a cada v E R. Portanto, o conjunto 
M é um emparelhamento. 


Para verificar quelM/=| f |, observe que para todo vértice correspondente u & L temos f(s, u)= 1 e, para toda 
aresta (u, v) E E— M, temos flu, v) = O. Consequentemente, (L U (si, R U (t!), o fluxo líquido pelo corte (L U 
(si RU (7), é iguala |M]. Aplicando o Lema 26.4, temos que >| fFfL U (SRU ED=IM. 

Com base no Lema 26.9, gostaríamos de concluir que um emparelhamento máximo em um grafo bipartido G 
corresponde a um fluxo máximo em sua rede de fluxo correspondente G”, e portanto podemos calcular um 
emparelhamento máximo em G executando um algoritmo de fluxo máximo em G”. O único senão nesse raciocínio é que 
o algoritmo de fluxo máximo poderia retornar um fluxo em G "para o qual algum flu, v) não é um inteiro, ainda que o 
valor de fluxo | | tenha de ser um inteiro. O teorema a seguir mostra que, se usarmos o método de Ford-Fulkerson, 
essa dificuldade não pode surgir. 


Teorema 26.10 (Teorema de integralidade) 


Se a função capacidade c adota somente valores inteiros, então o fluxo máximo f produzido pelo método de Ford- 
Fulkerson tem a seguinte propriedade: || é um inteiro. Além disso, para todos os vértices u e v, o valor de flu, v) é um 
inteiro. 

Prova A prova é por indução em relação ao número de iterações. Vamos deixá-la para o Exercício 26.3-2. 


Agora podemos provar o seguinte corolário para o Lema 26.9: 


Corolário 26.11 


A cardinalidade de um emparelhamento máximo M em um grafo bipartido G é igual ao valor de um fluxo máximo f em 
sua rede de fluxo correspondente G”. 


Prova Usamos a nomenclatura do Lema 26.9. Suponha que M seja um emparelhamento máximo em G e que o fluxo 
correspondente f em G'não seja máximo. Então existe um fluxo máximo f" em G” tal que |f'|> |f|. Visto que as 
capacidades em G" são valores inteiros, pelo Teorema 26.10 podemos supor que f” tem valor inteiro. Assim, f” 
corresponde a um emparelhamento M"em G cardinalidade IM "| =|f" |>|f|= IM, o que contradiz nossa hipótese de 
que M seja um emparelhamento máximo. De modo semelhante, podemos mostrar que, se f é um fluxo máximo em G”, 
seu emparelhamento correspondente será um emparelhamento máximo em G. 


Portanto, dado um grafo bipartido não dirigido G, podemos encontrar um emparelhamento máximo criando a rede 
de fluxo G”, executando o método de Ford-Fulkerson e obtendo diretamente um emparelhamento máximo M pelo fluxo 
máximo de valor inteiro f encontrado. Visto que qualquer emparelhamento em um grafo bipartido tem cardinalidade no 
máximo min (L, R) = O(V), o valor do fluxo máximo em G” é O(V). Portanto, podemos encontrar um emparelhamento 
máximo em um grafo bipartido no tempo O(V E” = O(V E), visto que |E | = Q(E). 


Exercícios 


26.3-1 Execute o algoritmo de Forn-FuLkerson na rede de fluxo na Figura 26.8(c) e mostre a rede residual após cada 
aumento de fluxo. Numere os vértices em L de cima para baixo, de 1 a 5, e em R de cima para baixo de 6 a 
9. Para cada iteração, escolha o caminho aumentador que seja lexicograficamente menor. 


26.3-2 Prove o Teorema 26.10. 


26.3-3 Seja G = (V, E) um grafo bipartido com partição de vértice V=L U R, e seja G” sua rede de fluxo 
correspondente. Dê um bom limite superior para o comprimento de qualquer caminho aumentador encontrado 
em G” durante a execução de Forp-FuLkerson. 


26.3-4 * Um emparelhamento perfeito é um emparelhamento no qual todo vértice é emparelhado. Seja G = (V, 
E) um grafo bipartido não dirigido com partição de vértice V=L U R, onde |L| = |R|. Para qualquer X € V, 
defina a vizinhança de X como 


NO =(yeE V:(x,y) E E para algum E MN, 


isto é, o conjunto de vértices adjacentes a algum membro de X. Prove o teorema de Hall: existe um 
emparelhamento perfeito em G se e somente se |4| < |N(4)| para todo subconjunto 4 € L. 


26.3-5 XX Dizemos que um grafo bipartido G = (V, E), onde V=L U Ré d-regular se todo vértice v E Vtem 
grau exatamente d. Todo grafo bipartido d-regular tem |L| = |R|. Prove que todo grafo bipartido d-regular tem 
um emparelhamento de cardinalidade |L| demonstrando que um corte mínimo da rede de fluxo correspondente 
tem capacidade |L]. 


26.4 4 ALGORITMOS PUSH-RELABEL 


Nesta seção, apresentamos a abordagem “push-relabeP” (empurrar-remarcar) para calcular fluxos máximos. Até o 
momento, muitos dos algoritmos de fluxo máximo assintoticamente mais rápidos são algoritmos push-relabel, e as mais 
rápidas implementações reais de algoritmos de fluxo máximo se baseiam no método push-relabel. Os métodos push- 
relabel resolvem também eficientemente outros problemas de fluxo, como o problema do fluxo de custo mínimo. Esta 
seção apresenta o algoritmo de fluxo máximo “genérico” de Goldberg, que tem uma implementação simples que é 
executada no tempo O(V, E), melhorando assim o limite de O(VE,) do algoritmo Edmonds-Karp. A Seção 26.5 refina 
o algoritmo genérico para obter um outro algoritmo push-relabel que é executado no tempo O(V,). 


Algoritmos push-relabel funcionam de uma maneira mais localizada que o método Ford-Fulkerson. Em vez de 
examinar toda a rede residual para encontrar um caminho aumentador, algoritmos push-relabel agem em um vértice por 
vez, examinando somente os vizinhos do vértice na rede residual. Além disso, diferentemente do método de Ford- 
Fulkerson, os algoritmos push-relabel não mantêm a propriedade de conservação de fluxo durante toda a sua execução. 
Entretanto, eles mantêm um pré-fluxo, que é uma função f:V x V— que satisfaz a restrição de capacidade e o 
seguinte relaxamento da conservação de fluxo: 


>fou)-> Hu, v)>0 


veV veV 


para todos os vértices u E V — (s). Isto é, o fluxo que entra em um vértice pode exceder o fluxo que sai. 
Denominamos essa quantidade 


e(u)=>" f(u,u)- > f(u,0) (26.14) 


excesso de fluxo no vértice u. O excesso em um vértice é a quantidade que representa a diferença entre o fluxo que 
entra e o fluxo que sai. Dizemos que um vértice u &€ V— £s, t; está transbordando se e(u) > 0. 

Iniciaremos esta seção descrevendo a intuição que fundamenta o método push-relabel. Então investigaremos as 
duas operações empregadas pelo método: “empurrar” pré-fluxo e “remarcar” um vértice. Finalmente, apresentaremos 
um algoritmo push-relabel genérico e analisaremos sua correção e seu tempo de execução. 


Intuição 


Podemos entender a intuição que fundamenta o método push-relabel em termos de fluxos de fluidos: consideramos 
uma rede de fluxo G = (V, E) como um sistema de tubos interconectados de capacidades dadas. Aplicando essa 
analogia ao método Ford-Fulkerson, podemos dizer que cada caminho aumentador na rede dá origem a uma corrente 
adicional de fluido, sem nenhum ponto de derivação, que flui da fonte ao sorvedouro. O método Ford-Fulkerson 
adiciona iterativamente mais correntes de fluxo até que nada mais seja possível adicionar. 

A intuição do algoritmo push-relabel genérico é bastante diferente. Como antes, arestas dirigidas correspondem a 
tubos. Vértices, que são junções de tubos, têm duas propriedades interessantes. A primeira é que, para acomodar 
excesso de fluxo, cada vértice tem um tubo de saída (uma derivação), que conduz esse excesso até um reservatório 
arbitrariamente grande que pode acumular fluido. A segunda é que cada vértice, seu reservatório e todas as suas 
conexões tubulares estão em uma plataforma cuja altura aumenta à medida que o algoritmo progride. 

As alturas dos vértices determinam como o fluxo é empurrado: empurramos o fluxo em declive, isto é, de um 
vértice mais alto para um vértice mais baixo. O fluxo de um vértice mais baixo para um vértice mais alto pode ser 
positivo, mas as operações que empurram o fluxo só o empurram em declive. Fixamos a altura da fonte em |V] e a altura 
do sorvedouro em 0. As alturas de todos os outros vértices começam em O e aumentam com o tempo. Primeiro, o 
algoritmo envia o máximo de fluxo possível em declive da fonte ao sorvedouro. A quantidade enviada é exatamente a 
suficiente para encher cada tubo que sai da fonte até sua capacidade nominal, isto é, o algoritmo envia a capacidade do 
corte (s, V — (sy). Quando entra pela primeira vez em um vértice intermediário, o fluxo é coletado no reservatório do 
vértice de onde, em determinado momento, ele é empurrado em declive. 

A certa altura, podemos descobrir que os únicos tubos que saem de um vértice u e ainda não estão saturados de 
fluido se conectam com vértices que estão no mesmo nível que u ou que estão acima de u. Nesse caso, para livrar do 
excesso de fluxo um vértice u que está transbordando, temos de aumentar sua altura — uma operação denominada 
“remarcar” o vértice u. Aumentamos a altura desse vértice de uma unidade a mais que a altura do mais baixo de seus 
vizinhos ao qual está conectado por um tubo não saturado. Portanto, depois que um vértice é remarcado (relabeled) ele 
tem, no mínimo, um tubo de saída pelo qual podemos empurrar mais fluxo. 


A certa altura, todo o fluxo que poderia chegar até o sorvedouro já chegou. Nada mais pode chegar porque os 
tubos obedecem a restrições de capacidade; a quantidade de fluxo que passa por qualquer corte ainda é limitada pela 
capacidade do corte. Então, para que o pré-fluxo se torne um fluxo válido, o algoritmo envia de volta à fonte o excesso 
coletado nos reservatórios de vértices que estavam transbordando, continuando a remarcar vértices com uma altura 
maior que a altura fixa |] da fonte. Como veremos, tão logo tenhamos esvaziado todos os reservatórios, o pré-fluxo 
não é somente um fluxo “válido”; é também um fluxo máximo. 


As operações básicas 


Pela discussão precedente, vemos que o algoritmo push-relabel executa duas operações básicas: empurra o 
excesso de fluxo de um vértice até um de seus vizinhos e remarca um vértice. As situações às quais essas operações se 
aplicam dependem das alturas dos vértices, que agora definimos exatamente. 

Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro t, e seja f um pré-fluxo em G. Uma função A : V — 

é uma função altura? se h(s) = |V), h(t) = 0 e 


h(u) <h(v) + 1 


para toda aresta residual (u, v) E E,. Obtemos imediatamente o lema a segurr. 


Lema 26.12 


Seja G = (V, E) uma rede de fluxo, seja f um pré-fluxo em G e seja h uma função altura em V. Para quaisquer dois 
vértices u,v & V, se A(u) > A(v) + 1, então (u, v) não é uma aresta no grafo residual. 


A operação empurrar 


A operação básica Pusu(u, v) se aplica se u é um vértice que está transbordando, c;(u, v)> 0 e A(u) = A(v) + 1.0 
pseudocódigo que apresentamos em seguida atualiza o pré-fluxo f e os excessos de fluxo para u e v. Ele supõe que 
podemos calcular a capacidade residual c, (u, v) em tempo constante dados c e f. Mantemos o excesso de fluxo 
armazenado em um vértice u como o atributo u.e e a altura de u como o atributo u.h. A expressão d,(u, v) é uma 
variável temporária que armazena a quantidade de fluxo que pode ser empurrada de u para v. 


PusH(u,v) 


/l Aplica-se quando: u está transbordando, c(u,v) > 0,eu.h = v.h + 1. 
/| Ação: Empurrar Adu v) = min(u.e, cu v)) unidades de fluxo de u até v. 
Au v) = min(u.e, cÁu,v)) 
if(u,v) E E 
(uv). f = (u,0)f + Adu sv) 
else (u,0).f = (u,0).f — Adu) 
u.e = u.e — Adu) 
v.e = v.e+ Adu v) 


CONAN ATER ONm 


O código para Pusn funciona da seguinte maneira: como o vértice u tem um excesso positivo u.e e a capacidade 
residual de (u, v) é positiva, podemos aumentar o fluxo de u a v de D/(u, v) = min(u.e, c; (u,v)) sem que u.e torne-se 
negativo nem que a capacidade c(u, v) seja excedida. A linha 3 calcula o valor Dí(u, v) e as linhas 4-6 atualizam f A 
linha 5 aumenta o fluxo na aresta (u, v) porque estamos empurrando fluxo por uma aresta residual que também é uma 
aresta original. A linha 6 diminui o fluxo na aresta (v, u) porque, na verdade, a aresta residual é o inverso de uma aresta 


na rede original. Por fim, as linhas 7-8 atualizam os excessos de fluxo que entram nos vértices u e v. Assim, se f é um 
pré-fluxo antes de Pusn ser chamada, continua sendo um pré-fluxo depois. 

Observe que nada no código de Pusn depende das alturas de u e v; ainda assim proibimos que ele seja invocado, a 
menos que u.h = v.h + 1. Portanto, empurramos o excesso de fluxo para baixo por uma altura diferencial de apenas 1. 
Pelo Lema 26.12, não existem arestas residuais entre dois vértices cujas diferenças entre alturas sejam maiores do que 
1 e, assim, visto que o atributo h é de fato uma função altura não teríamos nada a ganhar se permitirmos que o fluxo seja 
empurrado para baixo por um diferencial de altura maior que 1. 

Dizemos que Pusu(u, v) é um empurrão de u a v. Se uma operação push se aplicar a alguma aresta (u, v) que sai 
de um vértice u, dizemos também que tal operação se aplica a u. Ela é um empurrão saturador se a aresta (u, v) na 
rede residual tornar-se saturada (c,(u, v) = O depois); caso contrário, ela é um empurrão não saturador. Se uma 
aresta torna-se saturada, ela desaparece da rede residual. Um lema simples caracteriza uma consequência de um 
empurrão não saturador. 


Lema 26.13 


Após um empurrão não saturador de u a v, o vértice u não está mais transbordando. 


Prova Visto que o empurrão foi não saturador, a quantidade de fluxo D/(u, v) realmente empurrada tem de ser igual a 
u.e antes do empurrão. Como u.e é reduzido dessa quantidade, ele se torna O após o empurrão. 


A operação remarcar 


A operação básica ReLaseL(u) se aplica se u está transbordando e se u.h < v.h para todas as arestas (u, v) E E,. 
Em outras palavras, podemos remarcar um vértice u que está transbordando se, para todo vértice v para o qual há 
capacidade residual de uy a v, o fluxo não puder ser empurrado de u para v porque v não está abaixo de wu. (Lembre-se 
de que, por definição, nem a fonte s nem o sorvedouro t podem transbordar, portanto nem s nem t são candidatos à 
remarcação.) 


RELABEL(U) 


11 Aplica-se quando: u está transbordando e, para todo v E V tal que (1, v) E E, 
temos u.h < v.h. 

2 |! Ação: Aumentar a altura de u. 

3 uh=1+minfuh:(u,v) € E) 


Quando chamamos a operação Reraser(u), dizemos que o vértice u é remarcado (relabeled ). Observe que, 
quando u é remarcado, E deve conter no mínimo uma aresta que saia de u, de modo que a minimização no código é em 
relação a um conjunto não vazio. Essa propriedade decorre da hipótese de que u está transbordando, o que, por sua 
vez, nos diz que 


u.e = > Ho,u)-S Fo,u) >0 


veV 


Visto que todos os fluxos são não negativos, então temos de ter no mínimo um vértice v tal que (v,u).f > 0. Mas, 
então, ce(u,v) > 0, o que implica que (u,v) E E,. Assim, a operação ReLaser(u) dá a u a maior altura permitida pelas 
restrições impostas às funções altura. 


O algoritmo genérico 


O algoritmo push-relabel genérico utiliza a seguinte subrotina para criar um pré-fluxo inicial na rede de fluxo: 
INITIALIZE-PREFLOW(G, Ss) 


1 forcada vérticev e G.V 

2 nh=0 

3 vue=0b 

4 for cada aresta (u,v) E G.E 
5 (u,0)f= O 

6 sh=G.V| 

7 for cada vértice v € s.Adj 
8 (s,0).f = c(s,v) 

9 v.e=c(s,v) 

10 se=s.e-c(s) 


INITIALIZE-PREFLOW cria um pré-fluxo inicial f definido por 


(u,0).f = Fa pata (26.15) 


0 caso contrário. 


Isto é, enchemos cada aresta que sai da fonte s até a capacidade total, e todas as outras arestas não transportam 
nenhum fluxo. Para cada vértice v adjacente à fonte, temos inicialmente v.e = c(s, v), e inicializamos s.e como o 
negativo da soma dessas capacidades. O algoritmo genérico também começa com uma função altura inicial A, dada por 


IVI seu=s, 
u.h = 


0) caso contrário . (26.16) 


A equação (26.16) define uma função altura porque as únicas arestas (u, v) para as quais u.h > v.h + 1 são 
aquelas para as quais u =, e essas arestas são saturadas, o que significa que não estão na rede residual. 

A inicialização, seguida por uma sequência de operações empurrão e remarcação, executadas sem qualquer ordem 
definida, produz o algoritmo Generic-Pust-RELABEL: 


GENERIC-PusH-RELABEL(G) 


1 INITIALIZE-PREFLOW(G, 5) 
2 while existir uma operação empurrão ou remarcação aplicável 
3 selecionar uma operação de empurrão ou remarcação aplicável e executá-la 


O lema a seguir nos informa que, desde que exista um vértice que está transbordando, no mínimo uma das duas 
operações básicas se aplica. 


Lema 26.14 (Um vértice que está transbordando pode ser empurrado ou remarcado) 


Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro £, seja f um pré-fluxo e seja h alguma função altura para f. 
Se u é qualquer vértice que está transbordando, então uma operação empurrão ou remarcação é aplicável. 


Prova Para qualquer aresta residual (u, v), temos A(u) < A(v) + 1 porque h é uma função altura. Se uma operação 
empurrão não se aplica a um vértice u que está transbordando, então, para todas as arestas residuais (u, v), devemos 
ter A(u) < A(v) + 1, o que implica A(u) < h(v). Assim, uma operação remarcação aplica-se a u. 


Correção do método push-relabel 


Para mostrar que o algoritmo push-relabel genérico resolve o problema de fluxo máximo, em primeiro lugar temos 
de provar que, se ele terminar, o pré-fluxo f é um fluxo máximo. Mais adiante provaremos que ele termina. Começamos 
com algumas observações sobre a função altura A. 


Lema 26.15 (Alturas de vértices nunca diminuem) 


Durante a execução do procedimento Generic-PusH-ReraBeL em uma rede de fluxo G = (V, E), para cada vértice u €E V, 
a altura u.h nunca diminui. Além disso, sempre que uma operação remarcação é aplicada a um vértice u, sua altura u.h 
aumenta de no mínimo 1. 


Prova Como as alturas de vértices só mudam durante operações remarcação, basta provar a segunda afirmação do 
lema. Se o vértice u está prestes a passar por uma operação remarcação, então, para todos os vértices v tais que (u, v) 
E E,, temos u.h <v.h. Portanto, uh < 1 +mn(v.h:(u,v) E Eg e, assim, a operação deve aumentar u.h. 


Lema 26.16 


Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro t. Então, a execução de Generic-Pusu-ReLaBeL em G 
mantém o atributo A como uma finção altura. 


Prova A prova é por indução em relação ao número de operações básicas executadas. Inicialmente, h é uma finção 
altura, como já observamos. 


Afirmamos que, se h é uma função altura, então uma operação Reraser(u) mantém h como uma finção altura. Se 
examinarmos uma aresta residual (u, v) € E,que sai de u, então a operação ReLaseL(u) assegura que u.h < v.h + 1 
depois dela. Agora, considere uma aresta residual (w, u) que entra em u. Pelo Lema 26.15, w.h < u.h + 1 antes da 
operação Reraser(u) implica w.h < u.h + 1 depois dela. Assim, a operação Reraser(u) mantém h como uma função 
altura. 


Agora, considere uma operação Pusu(u, v). Essa operação pode adicionar a aresta (v, u) a Er e pode remover (u, v) de 
E, . No primeiro caso, temos v.h=u.h-1<uh+ 1 e, assim h continua a ser uma função altura. No último caso, 
remover (u, v) da rede residual remove a restrição correspondente e, novamente, A continua a ser uma função altura. 


O lema a seguir dá uma importante propriedade de funções altura. 


Lema 26.17 


Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro t, seja f um pré-fluxo em G e seja h uma função altura em 
V. Então, não existe nenhum caminho da fonte s ao sorvedouro t na rede residual G,. 


Prova Considere, por contradição, que G, contenha um caminho p de sat, onde p=(Vy Vp o Vi) Vo Sev,—t. 
Sem perda da generalidade, p é um caminho simples e, assim, k < |V]. Para i=0,1,...,k-—1,aaresta (v, vt) E Ef. 
Como h é uma função altura, A(v) < A(v; + ) + 1 para i=0,1,..., k- 1. A combinação dessas desigualdades em 
relação ao caminho p produz h(s) < A(t) + k. Mas, como A(t) = 0, temos A(s) <k < |V, o que contradiz o requisito que 
h(s) = |V| em uma função altura. 


Agora estamos prontos para mostrar que, se o algoritmo push-relabel genérico terminar, o pré-fluxo que ele calcula 
será um fluxo máximo 


Teorema 26.18 (Correção do algoritmo push-relabel genérico) 


Se o algoritmo Generic-Pusu-ReLaBEL termina quando executado em uma rede de fluxo G = (V, E) com fonte s e 
sorvedouro t, então o pré-fluxo f que ele calcula será um fluxo máximo para G. 


Prova Usamos o seguinte invariante de laço: 
Cada vez que o teste do laço while na linha 2 em Generic-Pusa-ReL ABEL é executado, f é um pré-fluxo. 
Inicialização: Inrmatize-PrerLow faz f um pré-fluxo. 


Manutenção: As únicas operações dentro do laço while das linhas 2-3 são empurrão e relabel. 
As operações remarcação afetam somente atributos de altura e não os valores de fluxo; consequentemente, não 
afetam se fé ou não um pré-fluxo. Como demonstramos ao explicar Pusn(u, v), se f é um pré-fluxo antes de uma 
operação empurrão, continua a ser um pré-fluxo depois dela. 


Término: No término, cada vértice em V - (s, ti deve ter um excesso O porque, pelo Lema 26.14 e pelo invariante no 
qual fé sempre um pré-fluxo, não há nenhum vértice que esteja transbordando. Portanto, fé um fluxo. O Lema 26.16 
mostra que h é uma função altura no término e, assim, o Lema 26.17 nos diz que não existe nenhum caminho de s a t na 
rede residual G,. Portanto, pelo teorema de fluxo máximo/corte mínimo (Teorema 26.6), f é um fluxo de máximo. 


Análise do método push-relabel 


Para mostrar que o algoritmo push-relabel genérico de fato termina, limitaremos o número de operações que ele 
executa. Limitamos separadamente cada um dos três tipos de operações: renomeações, empurrões saturadores e 
empurrões não saturadores. Conhecendo esses limites, é um problema de solução direta conceber um algoritmo que 
seja executado no tempo O(V,E). Contudo, antes de iniciarmos a análise, provaremos um importante lema. Lembre-se 
de que na rede residual permitimos que arestas entrem na fonte. 


Lema 26.19 


Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro t, e seja f um pré-fluxo em G. Então, para qualquer 
vértice x transbordando, existe um caminho simples de x a s na rede residual G, 


Prova Para um vértice x transbordando, seja U = fv : existe um caminho simples de x a v em Gg, e suponha, por 
contradição, ques EU. Seja U=V-U. 

Notando a definição de excesso de fluxo dada pela equação (26.14), somamos sobre todos os vértices em U e 
observamos que V=U U U, para obter 


>Se(u) 


ueu 


Es DD f(o,u) E: UC) 


ueU AveV 


= Horto + fa) -[D f(u,0)+5) fu) 


ueU AA vel vel vel vEeu 


=5 5 Ho m+D 5 Fou) 5 Fuv)-S 3. fu,o) 


ueU vel ue vel uelU vel ueU vel 


=555 Hm) 555) f(u,0). 


uelU vel ue vel 


Sabemos que a quantidade 3'.<ve(u) deve ser positiva porque e(x) > 0, x E U, todos os vértices exceto s têm 
excesso não negativo e, por hipótese, s é U. Assim, temos 


> Fou) FHou)>o. (26.17) 


ueU vel uell vell 


Todos os fluxos de arestas são não negativos e, portanto, para a equação (26.17) ser válida, temos de ter Dueu 


Dye uf(v, u)> 0. Consequentemente, deve existir no mínimo um par de vérticesu'" E Uev' E Ucomflv,u)> 
0. Mas, se flv”, u”) > 0, deve existir uma aresta residual u”, v”, o que significa que há um caminho simples de x u' — 
v” (o caminho x u” — v9, o que contradiz a definição de U. 


O próximo lema limita as alturas dos vértices e seu corolário limita o número de operações relabel executadas no 
total. 


Lema 26.20 


Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro t. Em qualquer instante durante a execução de Generic- 
Pusu-ReLaBeL em G, temos u.h < 2 |V|— 1 para todos os vértices u E V. 


Prova As alturas da fonte s e do sorvedouro t nunca mudam porque esses vértices, por definição, não transbordam. 
Assim, sempre temos s.h = |V] e t.h = 0, os quais não são maiores que 2/V|— 1. 


Agora considere qualquer vértice u & V-— (s, t!. Incialmente, uh = 0 < 2 |V| — 1. Mostraremos que, após cada 
operação relabel, ainda temos u.h < 2 |V] — 1. Quando u é remarcado, está transbordando e o Lema 26.19 nos diz que 
existe um caminho simples p deu a sem G,. Sejap=(v, vp... vV,ondev;=u, v = sek<|V|- 1, porque p é 
simples. Para i = 0, 1,..., k — 1, temos (v,, v, + 1) E E,e, portanto, pelo Lema 26.16, v.h < v, + 1.h + 1. Expandir 
essas desigualdades no caminho p produz u.h = v,h<v-h+k<sh+(|V|-D=2M-1. 


Corolário 26.21 (Limite em operações remarcação) 


Seja G = (V, E) uma rede de fluxo com fonte s e sorvedouro t. Então, durante a execução de GenEric-Pust-ReLABEL 
em G, o número de operações remarcação é no máximo 2/V] — 1 por vértice e no máximo (2/V| — (|V|—- 2) < 2/V? no 
total. 


Prova Somente os |V] - 2 vértices em V - fs, t; podem ser renomeados. Sejau E V- (s, tj. A operação ReLaser(u) 
aumenta u.h. O valor de A[u] é inicialmente O e, pelo Lema 26.20, cresce até no máximo 2/V| — 1. Assim, cada vértice 
ue V-fs,t! é remarcado no máximo 2/V| — 1 vezes, e o número total de operações remarcação executadas é no 
máximo (2]/]= IXJV|= 2) <2]VP. 

O Lema 26.20 também nos ajuda a limitar o número de empurrões saturadores. 


Lema 26.22 (Limite para empurrões saturadores) 


Durante a execução de GenEric-Pusu-ReLaBEL em qualquer rede de fluxo G = (V, E), o número de empurrões saturadores 
é menor que 2/V]|E]. 


Prova Para qualquer par de vértices u, v & V, contaremos os empurrões saturadores de u a v e de v a u juntos e os 
denominaremos empurrões saturadores entre u e v. Se existirem quaisquer desses empurrões, no mínimo um de (u, v) e 
(v, u) é na realidade uma aresta em E. Agora, suponha que ocorreu um empurrão saturador de u a v. Nesse instante, 
v.h=u.h —l. Para que mais tarde ocorra um outro empurrão de u a v, em primeiro lugar o algoritmo tem de empurrar 


o fluxo de v até u, o que não pode acontecer até que v.h = u.h + 1. Visto que u.h nunca diminui para v.h=uh+1,o 
valor de v.h deve aumentar de no mínimo duas unidades. Da mesma forma, u.h deve aumentar de no mínimo dois entre 
empurrões saturadores de v a u. As alturas começam em O e, pelo Lema 26.20, nunca excedem 2/V| —1, o que implica 
que o número de vezes que a altura de qualquer vértice pode aumentar de duas unidades é menor que |V]. Visto que no 
mínimo uma de u.h e v.h deve aumentar de duas unidades entre quaisquer dois pushes saturadores entre u e v, há um 
número menor que 2/V] de empurrões saturadores entre u e v. Multiplicando pelo número de arestas temos um limite 
menor que 2/V||E| para o número total de empurrões saturadores. 


O lema a seguir limita o número de empurrões não saturadores no algoritmo push-relabel genérico. 


Lema 26.23 (Limite para empurrões não saturadores) 


Durante a execução de Generic-PusH-ReLaBeL em qualquer rede de fluxo G = (V, E), o número de empurrões não 
saturadores é menor que 4/V2 (|V] + EI). 


Prova Defina uma função potencial = Dad v>ov.h. Inicialmente, = 0,e o valor de pode mudar após cada 
operação relabel, empurrão saturador e empurrão não saturador. Limitaremos as quantidades que as operações 
empurrão saturador e remarcação podem contribuir para o aumento de . Então, mostraremos que cada empurrão não 
saturador deve diminuir F de no mínimo 1, e usaremos esses limites para deduzir um limite superior para o número de 
empurrões não saturadores. 

Vamos examinar os dois modos possíveis de aumentar . O primeiro é remarcar um vértice u, o que aumenta de 
menos que 2/V], já que o conjunto no qual a soma é efetuada é o mesmo, e relabel não pode aumentar a altura de u 
para mais do que sua máxima altura possível que, pelo Lema 26.20, é no máximo 2/V| — 1. O segundo é executar um 
empurrão saturador de um vértice u até um vértice v, o que aumenta de menos que 2/V, já que nenhuma altura muda e 
só o vértice v, cuja altura é no máximo 2/V] — 1, poderia se tornar um vértice que está transbordando. 

Agora, mostramos que um empurrão não saturador de u para v diminui F de no mínimo 1. Por quê? Antes do 
empurrão não saturador, u estava transbordando e v poderia ou não estar transbordando. Pelo Lema 26.13, u não está 
mais transbordando depois do empurrão. Além disso, a menos que v seja a fonte, ele poderia ou não estar 
transbordando depois do empurrão. Então, a função potencial diminuiu de exatamente u.h e aumentou de O ou de 
v.h. Visto que u.h — v.h = 1, o efeito líquido é que a função potencial diminuiu de no mínimo 1. 


Assim, durante o curso do algoritmo, a quantidade total de aumento em se deve a remarcações e empurrões 
saturados, e o Corolário 26.21 e o Lema 26.22 restringem o aumento a menos de (2/V)Q2|V2) + QIVDCIVIE!) = 4/V2 
(1V| + |E). Visto que > 0, a quantidade total de diminuição e, portanto, o número total de empurrões não saturadores é 
menor que 4/VP (|| + |EI). 


Agora, que o número de remarcações, empurrões saturadores e empurrões não saturadores foi limitado, definimos 
o cenário para a análise seguinte do procedimento GenEric-PusH-RELABEL €, consequentemente, de qualquer algoritmo 
baseado no método push-relabel. 


Teorema 26.24 


Durante a execução de Generic-PusH-ReraBeL em qualquer rede de fluxo G = (V, E), o número de operações básicas 
é O(V,E). 


Prova Imediata pelo Corolário 26.21 e Lemas 26.22 e 26.23. 


Assim, o algoritmo termina após O(V,E) operações. Agora só falta dar um método eficiente para implementar cada 
operação e escolher uma operação adequada para executar. 


Corolário 26.25 


Existe uma implementação do algoritmo push-relabel genérico que é executada no tempo O(V,E) em qualquer rede de 
fluxo G = (V, E). 


Prova O Exercício 26.4-2 pede que você mostre como implementar o algoritmo genérico com uma sobrecarga de 
O(V) por operação remarcação e O(1) por empurrão. O exercício pede também que você projete uma estrutura de 
dados que permita escolher uma operação aplicável no tempo O(1). Então o corolário decorre. 


Exercícios 


26.4-1 


26.4-2 


26.4-3 


26.4-4 


26.4-5 


26.4-6 


26.4-7 


26.4-8 


26.4-9 


Prove que, depois que o procedimento Inmarize-PrerLow(G, s) termina, temos s.e < -| f *|, onde f * é um fluxo 
máximo para G. 


Mostre como implementar o algoritmo push-relabel genérico usando o tempo O(V) por operação remarcação, 
o tempo O(1) por empurrão e o tempo O(1) para selecionar uma operação aplicável, para um tempo total de 
O(V,E). 


Prove que o algoritmo push-relabel genérico gasta somente um tempo total de O(V E) na execução de todas 
as O(V,) operações remarcação. 


Suponha que encontramos um fluxo máximo em uma rede de fluxo G = (V, E) usando um algoritmo push- 
relabel. Dê um algoritmo rápido para encontrar um corte mínimo em G. 


Dê um algoritmo push-relabel eficiente para encontrar um emparelhamento máximo em um grafo bipartido. 
Analise seu algoritmo. 


Suponha que todas as capacidades de arestas em uma rede de fluxo G = (V, E) estejam no conjunto (1, 2, 
..., k). Analise o tempo de execução do algoritmo push-relabel genérico em termos de |V], |E| e k. (Sugestão: 
Quantas vezes cada aresta pode suportar um empurrão não saturador antes de ficar saturada?) 


Mostre que poderíamos mudar a linha 6 de InmaLize-PrerLow para 6 s.h = |G.V| — 2 sem afetar a correção ou 
o desempenho assintótico do algoritmo push-relabel genérico. 


Seja df (u, v) a distância (número de arestas) de u a v na rede residual G,. Mostre que o procedimento 
GeNErIC-PuUsH-RELABEL Mantém as seguintes propriedades: u.h < |V| implica u.h < du, t) e u.h > |V] implica u.h 


= Iá = du, s). 


* Como no exercício anterior, seja df (u, v) a distância de u a v na rede residual G,. Mostre como modificar 
o algoritmo Pusu-ReLaBEL genérico para manter as seguintes propriedades: u.h < |V| implica u.h = du, t), e 
u.h > |V| implica u.h — |V| = df (u, s). O tempo total que sua implementação dedica à manutenção dessa 
propriedade deve ser O(V E). 


26.4-10 Mostre que o número de empurrões não saturadores executados pelo procedimento Gr- neric-PusH-ReLABEL Em 


26.5 


uma rede de fluxo G = (V, E) é no máximo 4|VR|E] para |V| > 4. 


x (O ALGORITMO RELABEL-TO-FRONT 


O método Pusm-ReLaBEL nos permite aplicar as operações básicas em absolutamente qualquer ordem. Porém, 
escolhendo a ordem com cuidado e administrando eficientemente a estrutura de dados da rede, podemos resolver o 
problema de fluxo máximo mais rapidamente que o limite O(V,E) dado pelo Corolário 26.25. Examinaremos agora o 
algoritmo relabel-to-front, um algoritmo push-relabel cujo tempo de execução é O(V,), que é assintoticamente no 
mínimo tão bom quanto O(V,E) e até melhor para redes densas. 

O algoritmo relabel-to- front mantém uma lista dos vértices da rede. Começando na frente, o algoritmo varre a lista, 
selecionando repetidamente um vértice u que está transbordando e depois “descarregando-o”, isto é, executando 
operações empurrão e remarcação até u não ter mais um excesso positivo. Sempre que um vértice é remarcado, nós o 
deslocamos para a frente da lista (daí o nome “relabel-to-front”, e o algoritmo inicia novamente sua varredura. 

A correção e a análise do algoritmo relabelto-front dependem da noção de arestas “admissíveis”: as arestas na 
rede residual pelas quais o fluxo pode ser empurrado. Depois de provar algumas propriedades da rede de arestas 
admissíveis, investigaremos a operação de descarga, e apresentaremos e analisaremos o algoritmo relabel-to-front 
propriamente dito. 


Arestas e redes admissíveis 


Se G = (V, E) é uma rede de fluxo com fonte s e sorvedouro t, f é um pré-fluxo em G e h é uma finção altura, 
dizemos que (u, v) é uma aresta admissível se c(u, v) > 0 e A(u) = A(v) + 1. Caso contrário, (u, v) é inadmissível. 
A rede admissível é Gr = (V, E,h), onde E,h é o conjunto de arestas admissíveis. 

A rede admissível consiste nas arestas pelas quais podemos empurrar o fluxo. O lema a seguir mostra que essa 
rede é um grafo acíclico dirigido (gad). 


Lema 26.26 (A rede admissível é acíclica) 


Se G =(V, E) é uma rede de fluxo, f é um pré-fluxo em G e h é uma função altura em G, então a rede admissível 
Gp" = (V, Eph) é acíclica. 


Prova A prova é por contradição. Suponha que Gp” contenha um ciclo p = (v,, V4, ..., V), onde v; = v, e k > 0. Visto 
que cada aresta em p é admissível, temos A(v, - 1) = A(v)+ 1 para i=1,2,..., k. O somatório em torno do ciclo dá 


Sho, = SI (uto)+ 1) 
= Souto) + k 


Como cada vértice no ciclo p aparece uma vez em cada um dos somatórios, deduzimos a contradição de que O = k. 


Os dois lemas seguintes mostram como as operações empurrão e remarcação mudam a rede admissível. 


Lema 26.27 


Seja G = (V, E) uma rede de fluxo, seja f um pré-fluxo em G e suponha que o atributo h seja uma função altura. Se um 
vértice u está transbordando e (u, v) é uma aresta admissível, então Pusn(u, v) se aplica. A operação não cria nenhuma 
nova aresta admissível, mas pode transformar (u, v) em inadmissível. 


Prova Pela definição de aresta admissível, podemos empurrar fluxo de u a v. Visto que u está transbordando, a 
operação Pusn(u, v) se aplica. A única aresta residual nova que a operação de empurrar fluxo de u a v pode criar é (v, 


u). Como h(v) = h(u) — 1, a aresta (v, u) não pode se tornar admissível. Se a operação é um empurrão saturador, 
então c(u, v) = O daí em diante e (u, se torna inadmissível. 


Lema 26.28 


Seja G = (V, E) uma rede de fluxo, seja / um pré-fluxo em G e suponha que o atributo h seja uma função altura. Se um 
vértice u está transbordando e não há nenhuma aresta admissível saindo de u, então ReLaser(u) se aplica. Após a 
operação remarcação, existe no mínimo uma aresta admissível saindo de u, mas não existe nenhuma aresta admissível 
entrando em u. 


Prova Se u está transbordando, pelo Lema 26.14, uma operação empurrão ou uma operação remarcação se aplica a 
esse vértice. Se não existe nenhuma aresta admissível saindo de u, então nenhum fluxo pode ser empurrado de u e, 
portanto, ReLaseL(u) se aplica. Depois da operação remarcação, u.h = 1 + mm fv.h:(u, v) E Ep. Assim, se v é um 
vértice que realiza o mínimo nesse conjunto, a aresta (u, v) se torna admissível. Consequentemente, após a operação 
relabel existe no mínimo uma aresta admissível saindo de u. 


Para mostrar que nenhuma aresta admissível entra em u após uma operação relabel, suponha que exista um vértice v tal 
que (v, u) é admissível. Então, v.h = u.h + 1 após a operação relabel e, assim, v.h > u.h + 1 imediatamente antes de 
relabel. Porém, pelo Lema 26.12, não existe nenhuma aresta residual entre vértices cuja diferença entre as respectivas 
alturas seja mais de 1. Além disso, renomear um vértice não muda a rede residual. Portanto, (v, u) não está na rede 
residual e, consequentemente, não pode estar na rede admissível. 


Listas de vizinhos 


No algoritmo relabel-to-front, arestas são organizadas em “listas de vizinhos”. Dada uma rede de fluxo G = (V, E), a 
lista de vizinhos u.N para um vértice u & V é uma lista simplesmente ligada dos vizinhos de u em G. Assim, o vértice 
v aparece na lista u.N se (u,v) E E ou(v,u) E E. A lista de vizinhos u.N contém exatamente os vértices v para os 
quais pode existir uma aresta residual (u, v). O atributo u.N.início aponta para o primeiro vértice em u.N e v.próximo 
aponta para o vértice que vem depois de v em uma lista de vizinhos; esse ponteiro é nr se v é o último vértice na lista 
de vizinhos. 


O algoritmo relabel-to-front percorre cada lista de vizinhos em ciclos e em uma ordem arbitrária fixa durante a execução 
do algoritmo. Para cada vértice u, o atributo u.atual aponta para o vértice que está sendo considerado em u.N no 
momento em questão. Inicialmente, u.atual é definido como u.N.início. 


Descarregando um vértice em transbordamento 


Um vértice u é descarregado empurrando todo o seu excesso de fluxo por arestas admissíveis para vértices vizinhos; 
remarcando u conforme necessário para transformar as arestas que saem de u em arestas admissíveis. O pseudocódigo 
é dado a seguir. 


DISCHARGE(u) 


while u.e > 0 


v = u.atual 
1f v == NIL 
RELABEL(U) 


u.atual = u.N.início 
elseifcku,v)>0euh=vh+1 
PusH(u, v) 
else u.atual = v.próximo 
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Figura 26.9 Descarregando um vértice y. São necessárias 15 iterações do laço while de discHarce para empurrar todo o excesso de fluxo 
de y. Somente os vizinhos de y e as arestas que entram ou saem de y são mostrados. Em cada parte da figura, o número dentro de cada 
vértice é seu excesso no início da primeira iteração apresentada na parte, e cada vértice é mostrado na altura que ocupa nessa parte. A 


lista de vizinhos y.N no início de cada iteração aparece à direita, com o número da iteração na parte superior. O vizinho sombreado é 
v.atual. (a) Inicialmente, existem 19 unidades de excesso para empurrar de y e atual =s. As iterações 1, 2e 3 simplesmente avançam 
y.atual, já que não existe nenhuma aresta admissível saindo de y. Na iteração 4, y.atual = nn (mostrado pelo sombreado abaixo da lista 
de vizinhos) e, assim, y é remarcado e y.atual é redefinido como o início da lista de vizinhos. (b) Após a remarcação, o vértice y tem 
altura 1. Nas iterações 5 e 6, descobrimos que as arestas (y,s) e (y, x) são inadmissíveis, mas a iteração 7 empurra oito unidades de 
excesso de fluxo de y para z. Por causa do empurrão, y.atual não avança nessa iteração. (c) Visto que o empurrão na iteração 7 saturou a 
aresta (y, z), descobrimos que ela é inadmissível na iteração 8. Na iteração 9, y.atual = nm e, assim, o vértice y é novamente remarcado e 
y.atual é redefinido. 
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Figura 26.9 continuação (d) Na iteração 10, (y, s) é inadmissível, mas a iteração 11 empurra cinco unidades de excesso de fluxo de y para 
x. (e) Como y.atual não avançou na iteração 11, a iteração 12 descobre que (y, x) é inadmissível. A iteração 13 descobre que (y, z) é 
inadmissível, e a iteração 14 remarca o vértice y e redefine y.atual. (f) A iteração 15 empurra seis unidades de excesso de fluxo de y para 
s. (g) Agora o vértice y não temnenhum excesso de fluxo e Discnaror termina. Neste exemplo, discnarcr começa e também termina com o 
ponteiro atual no início da lista de vizinhos mas, em geral, isso não é necessário. 


A Figura 26.9 percorre explicitamente várias iterações do laço while das linhas 1-8, que é executado enquanto o 
vértice u tiver excesso positivo. Cada iteração executa exatamente uma de três ações, dependendo do vértice atual v na 
lista de vizinhos u.N. 


Il. Sev énr, passamos do fim de u.N. A linha 4 renomeia o vértice u e então a Inha 5 redefine o vizinho atual de u 
como o primeiro em u.N. (O Lema 26.29 apresentado mais adiante afirma que a operação remarcação se aplica 
nessa situação.) 

2. Sevénãonme (u, v) é uma aresta admissível (determinada pelo teste na linha 6), então a linha 7 empurra um 
pouco do excesso (ou possivelmente todo o excesso) de u para o vértice v. 

3. Sev énão nn, mas (u, v) é inadmissível, então a linha 8 avança u.atual mais uma posição na lista de vizinhos u.N. 


Observe que se Discmarar é chamada em um vértice u que está transbordando, então a última ação executada por 
Discnaror deve ser um empurrão a partir de u. Por quê? O procedimento termina somente quando u.e se torna zero, e 
nem a operação remarcação nem o avanço do ponteiro u.atual afeta o valor de u.e. 

Temos de ter certeza de que, quando Pusn ou ReLaBeL é chamado por Discrarcr à operação se aplica. O próximo 
lema prova esse fato. 


Lema 26.29 


Se Discraroe chama Pusn(u, v) na linha 7, então uma operação Pusn se aplica a (u, v). Se DiscHarce chama ReLaser(u) na 
linha 4, então uma operação de remarcação se aplica a u. 


Prova Os testes das linhas 1 e 6 asseguram que uma operação empurrão ocorre somente se a operação se aplicar, o 
que prova a primeira declaração no lema. 


Para provar a segunda declaração, de acordo com o teste na linha 1 e como Lema 26.28, basta mostrar que todas as 
arestas que saem de u são inadmissíveis. Se uma chamada a Discrarce(u) começa com o ponteiro u.atual no início da 
lista de vizinhos de u e termina com ele fora do final da lista, então todas as arestas que saem de u são inadmissíveis e 
uma operação remarcação se aplica. Todavia, é possível que durante uma chamada a Discnaroe(u) o ponteiro u.atual 
percorra somente parte da lista antes de o procedimento retornar. Então podem ocorrer chamadas a DiscHaroe em 
outros vértices, mas u.atual continuará se movendo pela lista durante a próxima chamada a Discmarce(u). Agora 
consideramos o que acontece durante uma passagem completa pela lista, que começa no início de u.N e termina com 
u.atual = nn. Tão logo u.atual chegue ao final da lista, o procedimento renomeia u e começa uma nova passagem. 
Para o ponteiro u.atual ultrapassar um vértice v E u.N durante uma passagem, a aresta (u,v) deve ser considerada 
inadmissível pelo teste na linha 6. Assim, quando a passagem é concluída, toda aresta que sai de u já foi determinada 
como inadmissível em algum momento durante a passagem. A observação fundamental é que, no final da passagem, 
toda aresta que sai de u ainda é inadmissível. Por quê? Pelo Lema 26.27, empurrões não podem criar nenhuma aresta 
admissível, independentemente do vértice do qual o fluxo é empurrado. Assim, qualquer aresta admissível deve ser 
criada por uma operação remarcação. Porém, o vértice u não é remarcado durante a passagem e, pelo Lema 26.28, 
qualquer outro vértice v que é renomeado durante a passagem (resultante de uma chamada de Discnaroe(v)) não tem 
nenhuma aresta de entrada admissível após a renomeação. Assim, ao final da passagem, todas as arestas que saem de u 
continuam inadmissíveis, o que conclui a prova. 


O algoritmo relabel-to-front 


No algoritmo relabel-to-front, mantemos uma lista ligada L que consiste em todos os vértices em V — ts, tj. Uma 
propriedade fundamental é que os vértices em L são ordenados topologicamente de acordo com a rede admissível, 
como veremos no invariante de laço a seguir. (Lembre-se de que vimos no Lema 26.26 que a rede admissível é um 


gad.) 


O pseudocódigo para o algoritmo relabel-to-front supõe que as listas de vizinhos u.N já foram criadas para cada 
vértice u. Supõe também que u.próximo aponta para o vértice que vem depois de u na lista L e que, como sempre, 
u. próximo = nu se u é o último vértice na lista. 


RELABEL-TO-FRONT(G, 5, t) 


1 INITIALIZE-PREFLOW(G, 5) 

2 L=G.V-— Is, t), em qualquer ordem 
3 forcadavérticeueG.V — (s,t] 

4 u.atual = u.N.início 

5 u=Liinício 

6  whileu = NIL 

Z 

8 

2 


altura-antiga = u.h 


DiscHARGE(u) 

ifu.h > altura-antiga 
10 mover u para a frente da lista L 
mg! u=u.próximo 


O algoritmo relabel-to-front funciona da maneira descrita a seguir. A linha 1 inicializa o pré-fluxo e as alturas para 
os mesmos valores que no algoritmo push-relabel genérico. A linha 2 inicializa a lista L para conter todos os vértices que 
potencialmente estariam transbordando, em qualquer ordem. As linhas 3-4 inicializam o ponteiro atual de cada vértice 
u como o primeiro vértice na lista de vizinhos de u. 

Como mostra a Figura 26.10, o laço while das linhas 6-11 percorre a lista L, descarregando os vértices. A linha 5 
o obriga a começar no primeiro vértice na lista. A cada passagem pelo laço, a linha 8 descarrega um vértice u. Se u foi 
remarcado pelo procedimento Discnarce, a linha 10 o desloca para a frente da lista L. Podemos determmar se u foi 
remarcado comparando sua altura antes da operação de descarga, que foi gravada na variável altura-antiga na linha 7, 
com sua altura depois da operação de descarga, na linha 9. A linha 11 obriga a próxima iteração do laço while a usar o 
vértice que vem depois de u na lista L. Se a linha 10 deslocou u para a frente da lista, o vértice usado na próxima 
iteração é aquele que vem depois de u em sua nova posição na lista. 

Para mostrar que ReLaseL-To-Fronr calcula um fluxo máximo, mostraremos que ele é uma implementação do 
algoritmo push-relabel genérico. Primeiro, observe que ele executa operações remarcação e empurrão só quando elas 
são aplicáveis, já que o Lema 26.29 garante que Discnaror sÓ executará essas operações quando eles se aplicarem. 
Resta mostrar que, quando ReLaBEL-To-Fronr termina, nenhuma operação básica se aplica. O restante do argumento de 
correção se baseia no seguinte invariante de laço: 

Em cada teste na linha 6 de ReraBeL-To-Fronr, a lista L é uma ordenação topológica dos vértices na rede admissível 
Go" = (V, Eh), e nenhum vértice antes de u na lista tem excesso de fluxo. 


Inicialização: Imediatamente após a execução de InmaLwe-Prertow, s.h =|V| e v.h = O para todo v E V— (sh. 
Visto que |V| > 2 (porque V contém no mínimo s e t), nenhuma aresta pode ser admissível. Assim, E, =0/, e 
qualquer ordenação de V —fs, t; é uma ordenação topológica de Gt. Como inicialmente u está no começo da 
lista L, não existe nenhum vértice antes dele, e portanto não há nenhum antes dele com excesso de fluxo. 


Manutenção: Para ver que cada iteração do laço while mantém a ordenação topológica, começamos observando 
que a rede admissível é mudada somente por operações empurrão e remarcação. Pelo Lema 26.27, as 
operações empurrão não transformam arestas em admissíveis. Assim, somente operações remarcação podem 
criar arestas admissíveis. Todavia, depois que um vértice u é remarcado, o Lema 26.28 afirma que não existe 


nenhuma aresta admissível entrando em u, mas pode haver arestas admissíveis saindo de u. Assim, deslocando u 
para a frente de L, o algoritmo garante que quaisquer arestas admissíveis que saem de u satisfazem a ordenação 
topológica. Para ver que nenhum vértice que precede u em L tem excesso de fluxo, denotamos por u o vértice 
que será u "na próxima iteração. Os vértices que precederão u "na próxima iteração incluem o u atual (devido à 
linha 11) e nenhum outro vértice (se u for remarcado) ou os mesmos vértices de antes (se u não for remarcado). 
Quando u é descarregado, não tem nenhum excesso de fluxo depois. Assim, se u for remarcado durante a 
descarga, nenhum vértice que precede w”terá excesso de fluxo. Se u não for remarcado durante a descarga, 
nenhum vértice antes dele na lista adquiriu excesso de fluxo durante essa descarga porque L permaneceu 
ordenada topologicamente o tempo todo durante a descarga (conforme acabamos de destacar, arestas 
admissíveis são criadas somente por remarcação, e não por empurrão) e, portanto, cada operação empurrão 
obriga o excesso de fluxo a se deslocar somente para vértices que estão mais abaixo na lista (ou para s ou 1). 
Novamente, nenhum vértice que precede u "tem excesso de fluxo. 
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Figura 26.10 A ação de Rezaser-To-FronT. (a) Uma rede de fluxo imediatamente antes da primeira iteração do laço while. No início, 26 
unidades de fluxo saem da fonte s. À direita é mostrada a lista inicial L = (x, y, z ), onde inicialmente u =x. Sob cada vértice na lista L está 
sua lista de vizinhos, como vizinho atual sombreado. O vértice x é descarregado. Ele é renomeado para altura 1, cinco unidades de 
excesso de fluxo são empurradas para y, e as sete unidades de excesso restantes são empurradas para o sorvedouro t. Como x foi 


remarcado, ele se desloca para o início de L, o que nesse caso não muda a estrutura de L. (b) Depois de x, y é o próximo vértice em L que 
é descarregado. A Figura 26.9 mostra a ação detalhada de descarregar y nessa situação. Como y foi remarcado, ele passa para o início de 
L.(c) Agora o vértice x vem depois de y emL£, e portanto ele é novamente descarregado, empurrando todas as cinco unidades de 
excesso de fluxo para t. Como o vértice x não é remarcado nessa operação de descarga, ele permanece em seu lugar na lista Z. 


Término: Quando o laço termina, y acabou de passar do final de L e, portanto, o invariante de laço garante que o 
excesso de todo vértice é O. Assim, nenhuma operação básica se aplica. 


Análise 


Mostraremos agora que ReLageL-To-Fronr é executado no tempo O(V,;) em qualquer rede de fluxo G = (V, E). Visto que 
o algoritmo é uma implementação do algoritmo push-relabel genérico, aproveitaremos o Corolário 26.21, que dá um 
limite O(V) para o número de operações remarcação executadas por vértice e um limite O(V,) para o número total 
global de operações remarcação. Além disso, o Exercício 26.4-3 dá um limite O(VE) para o tempo total gasto na 
execução de operações remarcação, e o Lema 26.22 dá um limite O(VE) para o número total de operações empurrões 
saturadores. 


(d) E) y 
Z Z t 
4 
6 
5 Li y X 
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Figura 26.10 continuação (d) Visto que o vértice z vem depois do vértice x em, ele é descarregado. O vértice é remarcado para a altura 
1e todas as oito unidades de excesso de fluxo são empurradas para t. Como z é remarcado, passa para a frente de L. (e) O vértice y agora 
vemdepois do vértice z emL e, portanto, é descarregado. Porém, como y não tem nenhum excesso, Discnarce retorna imediatamente e y 
permanece emseu lugar emLZ. O vértice x é então descarregado. Como também ele não tem nenhum excesso, DISCHARGE retorna mais 
uma vez e x permanece emseu lugar em. ReraseL-To-FronT chegou ao final da lista L e termina. Não existe nenhum vértice que está 
transbordando, e o pré-fluxo é um fluxo máximo. 


Teorema 26.30 
O tempo de execução de ReLaBEL-To-Fronr em qualquer rede de fluxo G = (V, E) é O(V,). 


Prova Vamos considerar uma “fase” do algoritmo relabel-to-front como o tempo entre duas operações remarcação 
consecutivas. Há O(V,) fases, já que há O(V,) operações remarcação. Cada fase consiste em no máximo |V] chamadas 
a DiscHarGE, O que podemos ver a seguir. Se piscHarcE não executar uma operação remarcação, a próxima chamada a 
Discnarce está ainda mais embaixo na lista L, e o comprimento de L é menor que |V]. Se Discnaroe executar uma 
operação remarcação, a próxima chamada a DiscHaro pertence a uma fase diferente. Visto que cada fase contém no 
máximo |V] chamadas a Discnarse » há O(V,) fases, o número de vezes que Discuarce é chamada na linha 8 de ReLaseL- 
To-Front é O(V,). Assim, o trabalho total realizado pelo laço while em ReLaseL-To-Fronr, excluindo o trabalho executado 
dentro de Discnarce, é no máximo O(V,). 

Agora, devemos limitar o trabalho realizado dentro de Discraros durante a execução do algoritmo. Cada iteração 
do laço while dentro de Discmarcr executa uma de três ações. Analisaremos a quantidade total de trabalho envolvido na 
execução de cada uma dessas ações. 

Começamos com operações remarcação (linhas 4-5 ). O Exercício 26.4-3 dá um limite de tempo O(VE) para 
todas as O(V,) operações remarcação executadas. 

Agora, suponha que a ação atualize o ponteiro u.atual na linha 8. Essa ação ocorre O(grau(u)) vezes cada vez que 
um vértice u é renomeado e, no geral, O(V - grau(u)) vezes para o vértice. Portanto, para todos os vértices, a 
quantidade total de trabalho realizado para avançar ponteiros em listas de vizinhos é O(VE) pelo lema do aperto de mão 
(Exercício B.4-1). 

O terceiro tipo de ação executada por Discnaror é uma operação empurrão (linha 7). Já sabemos que o número 
total de operações empurrão saturador é O(VE). Observe que, se um empurrão não saturador é executado, DiscHarcr 
retorna imediatamente, já que o empurrão reduz o excesso a 0. Assim, pode haver no máximo um empurrão não 
saturador por chamada a Discnaror. Como observamos, Discrarar é chamada O(V:) vezes, e assim o tempo total gasto 
na execução de empurrões não saturadores é O(V:). 

Portanto, o tempo de execução de reLaseL-to-rront é O(V, + VE), que é O(V,). 


Exercícios 


26.5-1 Ilustre a execução de ReraBeL-To-Fronr à maneira da Figura 26.10 para a rede de fluxo da Figura 26.1(a). 
Considere que a ordenação inicial de vértices em seja (v,, V5, V5, V4) € que as listas de vizinhos sejam 


( 
0,N =(8,0,,0,0,); 
DN = (0,50, 04 1) 
DeN = (0,0, Eb). 


26.5-2 X Gostaríamos de implementar um algoritmo push-relabel no qual mantivéssemos uma fila do tipo primeiro a 
entrar, primeiro a sarr de vértices que estão transbordando. O algoritmo descarrega repetidamen te o vértice 
que está no início da fila e quaisquer vértices que não estavam transbordando antes da descarga mas que 
estão transbordando depois são colocados no final da fila. Depois de descarregado, o vértice que está no 
início da fila é removido. Quando a fila está vazia, o algoritmo termina. Mostre como implementar esse 
algoritmo para calcular um fluxo máximo no tempo O(V.). 


26.5-3 Mostre que o algoritmo genérico ainda funciona se ReraseL atualiza u.h simplesmente calculando u.h = u.h + 
1. Como essa mudança afetaria a análise de ReLaBeL-TO-FrONT? 


26.5-4 X Mostre que, se sempre descarregarmos o vértice mais alto que está transbordando, podemos conseguir que 
o método push-relabel seja executado no tempo O(V,). 


26.5-5 Suponha que em algum ponto na execução de um algoritmo push-relabel, exista um inteiro O<k <|V/-1 


para o qual nenhum vértice tem v.h = k. Mostre que todos os vértices com v.h > k estão no lado da fonte de 
um corte mínimo. Se tal k existir, a heurística de lacuna atualiza todo vértice v & V— (sy para o qual v.h > 
k para definir v.h = max(v.h, |V| + 1). Mostre que o atributo h resultante é uma função altura. (A heurística de 
lacuna é crucial para conseguir que as implementações do método push-relabel funcionem bem na prática.) 


Problemas 


26-1 


O problema do escape 


Uma grade n x n é um grafo não dirigido que consiste em n linhas e n colunas de vértices, como mostra a 
Figura 26.11. Denotamos o vértice na i-ésima linha e j-ésima coluna por (i, ;). Todos os vértices em uma 
grade têm exatamente quatro vizinhos, exceto os vértices do contorno, que são os pontos (i, 7) para os quais i 
=l,i=nj=louj=n. 


Dados m < n, pontos de partida (x,, Yy), (X5, Y5), -..> (X,» Ym) Na grade, o problema do escape consiste em 
determinar se existem ou não m caminhos disjuntos de vértices dos pontos de partida a quaisquer m pontos 
diferentes no contorno. Por exemplo, a grade na Figura 26.11(a) tem um escape, mas a grade na Figura 
26.11(b) não tem. 


O O) O) O O O O; O 

(o) a a [) o E] O a O a 

o | 6 co: 0.0. 

O oO oO o 0 o 6 

O O O O) O O O O, O O) 

O ó O O O O O O O 0) 
(a) (b) 


Figura 26.11 Grades para o problema do escape. Os pontos de partida são pretos, e os outros vértices da grade são brancos. (a) Uma 
grade comescape, mostrado por caminhos sombreados. (b) Uma grade sem escape. 


26-2 


a Considere uma rede de fluxo na qual os vértices, bem como as arestas, têm capacidades. Isto é, o fluxo 
positivo total que entra em qualquer vértice dado está sujeito a uma restrição de capacidade. Mostre que 
determinar o fluxo máximo em uma rede com capacidades de arestas e vértices pode ser reduzido a um 
problema comum de fluxo máximo em uma rede de fluxo de tamanho comparável. 


b Descreva um algoritmo eficiente para resolver o problema do escape e analise seu tempo de execução. 


Cobertura de caminhos mínima 


Uma cobertura de caminhos de um grafo dirigido G = (V, E) é um conjunto P de caminhos disjuntos nos 
vértices tal que todo vértice em V está incluído em exatamente um caminho em P. Os caminhos podem 
começar e terminar em qualquer lugar e ter qualquer comprimento, inclusive 0. 


Uma cobertura de caminho mínima de G é uma cobertura de caminho que contém o menor número 
possível de caminhos. 


a Dê um algoritmo eficiente para encontrar uma cobertura de caminho mínima de um grafo acíclico dirigido 
G=(V, E). (Sugestão: Considerando que V = (1,2, ...,n!, construa o grafo G'= (V”, E9, onde 


VM cos PU DAM mall do 
E'=I(pa)iieWNUly,y):ie VU, uy): (1,7) E E), 


e execute um algoritmo de fluxo máximo.) 
b Seualgoritmo funciona para grafos dirigidos que contêm ciclos? Explique. 
26-3 Consultoria de algoritmos 


O professor Gore quer abrir uma empresa de consultoria de algoritmos. Ele identificou n subáreas importantes 
de algoritmos (que correspondem aproximadamente às diferentes partes deste livro) e as representa pelo 
conjunto 4 = (4,, 4,, ..., 4,). Para cada subárea A4,, ele pode contratar um profissional especializado nessa 
área por c, dólares. A empresa de consultoria alinhou um conjunto J = (J,, ,, ..., J + de serviços potenciais. 


Para executar o serviço J, a empresa precisaria ter contratado profissionais em um subconjunto R, € A de 
subáreas. Cada profissional pode trabalhar em vários serviços simultaneamente. Se a empresa optar por 
aceitar o trabalho J,, deve ter contratado profissionais em todas as subáreas em R,, e conseguirá uma receita 
de p,; dólares. 


O trabalho do professor Gore é determinar para quais subáreas contratar profissionais e quais serviços aceitar, 
de modo a maximizar a receita líquida, que é a receita total auferida dos trabalhos aceitos menos o custo de 
empregar os profissionais especializados. Considere a seguinte rede de fluxo G. Ela contém um vértice de 
fonte s, vértices 4,, 45, ...,4,, vértices J,, J», ....), e um vértice de sorvedouro t. Para k = 1,2....,n, a rede de 
fluxo contém uma aresta (s, 4,) com capacidade c(s, 4) = c, e, para i= 1,2....,n, a rede de fluxo contém 
uma aresta (J,, t) com capacidade c(J,, ) =p. Parak=1,2,..,nei=1,2,...,m,se4, €E R, então G 
contém uma aresta (4,, J;) com capacidade c(A,, J,) = 00. 


a Mostre que, se J;€ T para um corte de capacidade finita (S, 7) de G, então 4, E Tpara cada 4, E R 


b Mostre como determinar a receita líquida máxima pela capacidade de um corte mínimo de G e valores p: 
dados. 


c Dê um algoritmo eficiente para determinar quais serviços aceitar e quais profissionais especializados 
contratar. Analise o tempo de execução do seu algoritmo em termos de m, ne r Xiis 


26-4 Atualização do fluxo máximo 
Seja G = (V, E) uma rede de fluxo com fonte s, sorvedouro t e capacidades inteiras. 


Suponha que temos um fluxo máximo em G. 


26-5 


a Suponha que aumentamos de 1 a capacidade de uma única aresta (u, v) & E. Dê um algoritmo de 
tempo O(V + E) para atualizar o fluxo máximo. 


b Suponha que reduzimos de 1 a capacidade de uma única aresta (u, v) E E. Dê um algoritmo de tempo 
O(V + E) para atualizar o fluxo máximo. 


Fluxo máximo por mudança de escala 


Seja G = (V, E) uma rede de fluxo com fonte s, sorvedouro t e uma capacidade inteira c(u, v) em cada aresta 
(u,v) E E. Seja C = max(v, EE c(u, v). 


a Demonstre que um corte mínimo de G tem no máximo capacidade C|E]. 


b Para um dado número K, mostre como determinar um caminho aumentador de capacidade no mínimo K 
no tempo O(E), se tal caminho existir. 


Podemos usar a seguinte modificação de Forn-FuLkerson-Mernop para calcular um fluxo máximo em G: 


Max-FLow-By-SCALING(G, S, t) 


tits MaX, ver CUM, v) 
2 inicializar fluxo fcomo O 
3K= olig el 
4 whileK>1 
5 while existir um caminho aumentador p de capacidade no mínimo K 
6 aumentar o fluxo fao longo de p 
Z Ka K/2 
8 return f 
c Demonstre que Max-FLow-By-ScaLinG retorna um fluxo máximo. 
d Mostre que a capacidade de um corte mínimo da rede residual G;é no máximo 2K]E| cada vez que a 
linha 4 é executada. 
e  Demonstre que o laço while interno das linhas 5-6 é executado O(E) vezes para cada valor de K. 
f  Conclua que Max-Frow-By-Scarrno pode ser implementado de modo que seja executado no tempo O(E» lg 
O). 
26-6 Algoritmo Hopcroft-Karp para emparelhamento de grafo bipartido 


Neste problema, descrevemos um algoritmo mais rápido, criado por Hopcroft e Karp, para encontrar um 
emparelhamento máximo em um grafo bipartido. O algoritmo funciona no tempo O(NE). Dado um grafo não 
dirigido bipartido G = (V, E), onde V=L U R e todas as arestas têm exatamente uma extremidade em L, 
seja M um emparelhamento em G. Dizemos que um caminho simples P em G é um caminho aumentador 
para a M se ele começa em um vértice não emparelhado em L, termina em um vértice não emparelhado em R 
e suas arestas pertencem alternadamente a Me a E — M. (Essa definição de um caminho aumentador está 
relacionada, embora seja diferente, com um caminho aumentador em uma rede de fluxo.) Neste problema, 
tratamos um caminho como uma sequência de arestas, em vez de uma sequência de vértices. Um caminho 


mínimo aumentador referente a um emparelhamento M é um caminho aumentador que tem um número mínimo 
de arestas. 


Dados dois conuntos 4 e B, a diferença simétrica 4 & B é definida como (4 — B) U (B— 4), isto é, os 
elementos que estão em exatamente um dos dois conjuntos. 


a Mostre que, se M é um emparelhamento e P é um caminho aumentador para M, então a diferença 
simétrica M & P é um emparelhamento e |M º P| = IM| + 1. Mostre que, se Pt, P,, ..., P, são caminhos 
aumentadores em relação a M disjuntos nos vértices, então a diferença simétrica Me (P UP, U.. U 
P,) é um emparelhamento com cardinalidade |M| + k. 


A estrutura geral de nosso algoritmo é a seguinte: 
HorcrorT-KARP(G) 


IM=( 
2 repeat 
3 sejaP=(P,P,,..,P) um conjunto máximo de 
caminhos mínimos aumentadores disjuntos nos vértices para M 
4 M=MO(PUPU..UP) 
5 until P == () 
6 return M 


O restante desse problema pede que você analise o número de iterações no algoritmo (isto é, o número de 
iterações no laço repeat) e descreva uma implementação da linha 3. 


b Dados dois emparelhamentos M e M: em G, mostre que todo vértice no grafo G'=(V, MO M,) tem 
grau no máximo 2. Conclua que G "é uma união disjunta de caminhos ou ciclos simples. Demonstre que 
arestas em cada um desses caminhos ou ciclos simples pertencem alternadamente a M ou M.. Prove que, 
se IM| < |M.|, então M & M, contém no mínimo |M,| — IM] caminhos aumentadores disjuntos nos vértices 
para M. 


Seja /o comprimento de um caminho mínimo aumentador para um emparelhamento M e seja P,, P,, ..., 
P, um conjunto máximo de caminhos aumentadores para M, disjuntos nos vértices, de comprimento /. 
SejaM'=MO(P U.. U P)e suponha que P seja um caminho mínimo aumentador para M”. 


c Mostre que, se P é disjuntos nos vértices de Pi, P», ..., P«, então P tem mais de / arestas. 


d Agora, suponha que P não é disjuntos nos vértices de P,, P», ..., Pr. Seja 4 o conjunto de arestas (M & 
M9eP. Mostre que 4=(PU PU... UPy)ePe que |4|>(k + 1). Conclua que P tem mais de / 
arestas. 


e Prove que, se um caminho aumentador mínimo para M tem / arestas, o tamanho do emparelhamento 
máximo é no máximo IM] + |V]/1. 
f Mostre que o número de iterações do laço repeat no algoritmo é no máximo V2V (Sugestão: De quanto 


M pode crescer após a iteração número VV) 


g Dê umalgoritmo que funcione no tempo O(E) para encontrar um conjunto máximo de caminhos mínimos 
aumentadores disjuntos nos vértices P,, P», ..., P; para um dado emparelhamento M. Conclua que o 
tempo de execução total de Horcrorr-Karr é O(NVE). 


NorTas DO CAPÍTULO 


Ahuja, Magnanti e Orlin [7], Even [103], Lawler [224], Papadimíriou e Steiglitz [271] e ainda Tarjan [330] são 
boas referências para redes de fluxo e algoritmos relacionados. Goldberg, Tardos e Tarjan [139] também dão um ótimo 
levantamento de algoritmos para problemas de redes de fluxo, e Schrijver [304] escreveu uma resenha interessante de 
desenvolvimentos históricos na área de redes de fluxo. 

O método Ford-Fulkerson se deve a Ford e a Fulkerson [109], que deram origem ao estudo formal de muitos dos 
problemas na área de redes de fluxo, incluindo os problemas de fluxo máximo e emparelhamento em grafo bipartido. 
Muttas implementações iniciais do método de Ford-Fulkerson encontravam caminhos aumentadores usando busca em 
largura; Edmonds e Karp [102] e, independentemente, Dinic [89], provaram que essa estratégia produz um algoritmo 
de tempo polinomial. Uma ideia relacionada, a de utilizar “fluxos bloqueadores”, também foi desenvolvida primeiro por 
Dinic [89]. Karzanov [202] foi o primeiro a desenvolver a ideia de pré-fluxos. O método push-relabel se deve a 
Goldberg [136] e a Goldberg e Tarjan [140]. Goldberg e Tarjan apresentaram um algoritmo de tempo O(V;) que usa 
uma fila para manter o conjunto de vértices que estão transbordando, bem como um algoritmo que usa árvores 
dinâmicas para conseguir um tempo de execução de O(V E lg (V;/E + 2)). Vários outros pesquisadores desenvolveram 
algoritmos push-relabel de fluxo máximo. Ahuja e Orlin [9] e Ahuja, Orlin e Tarjan [10] deram algoritmos que usavam 
escalonamento. Cheriyan e Maheshwari [63] propuseram empurrar o fluxo a partir do vértice que está transbordando 
que tenha a altura máxima. Cheriyan e Hagerup [61] sugeriram permutar aleatoriamente a lista de vizinhos, e vários 
pesquisadores [14, 204, 276] desenvolveram desaleatorizações inteligentes dessa ideia, o que levou a uma sequência de 
algoritmos mais rápidos. O algoritmo de King, Rao e Tarjan [204] é o mais rápido desses algoritmos e funciona no 
tempo O(V E logE/( Ig VV). 

O algoritmo assintoticamente mais rápido criado até hoje para o problema de fluxo máximo, criado por Goldberg e 
Rao [138], funciona no tempo O(min(V, , E,,) E lg(V2/E + 2) lg €), onde C = max(u, v) E £ c(u, v). Esse algoritmo 
não usa o método push-relabel; em vez disso, é baseado na localização de fluxos de bloqueio. Todos os algoritmos de 
fluxo máximo anteriores, incluindo os que examinamos neste capítulo, usam alguma noção de distância (os algoritmos 
push-relabel utilizam a noção análoga de altura), sendo que um comprimento 1 é atribuído implicitamente a cada aresta. 
Esse novo algoritmo adota uma abordagem diferente e atribui comprimento O a arestas de alta capacidade e 
comprimento 1 a arestas de baixa capacidade. Informalmente, no que tange a esses comprimentos, caminhos mínimos 
da fonte ao sorvedouro tendem a ter capacidade alta, o que significa que é preciso executar um número menor de 
iterações. 

Na prática, atualmente os algoritmos push-relabel dominam a área dos algoritmos de caminho aumentador ou dos 
algoritmos baseados em programação linear para o problema de fluxo máximo. Um estudo de Cherkassky e Goldberg 
[63] reforça a importância de usar duas heurísticas na implementação de um algoritmo push-relabel. A primeira 
heurística é executar periodicamente uma busca em largura da rede residual para obter valores mais precisos para a 
altura. A segunda heurística é a heurística da lacuna, descrita no Exercício 26.55. Cherkassky e Goldberg concluem 
que a melhor escolha de variantes do algoritmo push-relabel é a que opta por descarregar o vértice que está 
transbordando que tem a altura máxima. 

O melhor algoritmo criado até hoje para o emparelhamento máximo em grafo bipartido, descoberto por Hopcroft e 
Karp [176], é executado no tempo O(NVE) e descrito no Problema 26-6. O livro de Lovász e Plummer [239] é uma 
excelente referência para problemas de emparelhamento. 


1 Lembre-se de que, na Seção 22.1, representamos um atributo fpara a aresta (u,v) com o mesmo estilo de notação — (u,v) - f— que 
usamos para umatributo de qualquer outro objeto. 

2O método de Ford-Fulkerson pode não terminar no término somente se as capacidades de arestas forem números irracionais. 

3 Na literatura, uma função altura, normalmente é denominada “função distância”, e a altura de um vértice é denominada “rótulo de 
distância”. Usamos o termo “altura” porque é mais sugestivo da intuição que fundamenta o algoritmo. Conservamos o uso do termo 
“remarcar” (relabel) para referenciar a operação que aumenta a altura de um vértice. A altura de um vértice está relacionada com sua 
distância em relação ao sorvedouro t, como seria determinado por uma busca em largura do transposto Gr. 


Parte 


TÓPICOS SELECIONADOS 


InrroDUÇÃO 


Esta parte contém uma seleção de tópicos sobre algoritmos que amplia e complementa material já apresentado 
neste livro. Alguns capítulos apresentam novos modelos de computação, como circuitos ou computadores paralelos. 
Outros abrangem domínios especializados, como geometria computacional ou teoria dos números. Os dois últimos 
capítulos discutem algumas das limitações conhecidas para o projeto de algoritmos eficientes e técnicas para enfrentar 
essas limitações. 

O Capítulo 27 apresenta um modelo algorítmico para computação paralela baseado em multithread dinâmico. O 
capítulo apresenta os aspectos básicos do modelo e mostra como quantificar paralelismo em termos de medidas de 
trabalho e duração. Então investiga vários algoritmos multithread interessantes, incluindo algoritmos para multiplicação 
de matrizes e ordenação por intercalação. 

O Capítulo 28 estuda algoritmos eficientes para operações com matrizes. Apresenta dois métodos gerais — 
decomposição LU e decomposição LUP — para resolver equações lineares pelo método de eliminação de Gauss no 
tempo O(n;). Mostra também que inversão de matrizes e multiplicação de matrizes podem ser realizadas com rapidez 
igual. O capítulo termina mostrando como calcular uma solução aproximada de mínimos quadrados quando um conjunto 
de equações lineares não tem nenhuma solução exata. 

O Capítulo 29 estuda programação linear, na qual desejamos maximizar ou minimizar um objetivo, dados recursos 
limitados e restrições concorrentes. A programação linear surge em uma variedade de áreas de aplicação prática. Esse 
capítulo abrange como formular e resolver programas lineares. O método de solução abordado é o algoritmo simplex, o 
mais antigo algoritmo para programação linear. Ao contrário de muitos algoritmos neste livro, o algoritmo simplex não é 
executado em tempo polinomial no pior caso, mas é razoavelmente eficiente e amplamente usado na prática. 

O Capítulo 30 estuda operações com polinômios e mostra como usar uma técnica de processamento de sinais 
muito conhecida — a transformada rápida de Fourier (FFT) — para multiplicar dois polinômios de grau n no tempo O(n 
lg 11). Investiga também implementações eficientes da FFT, incluindo um circuito paralelo. 

O Capítulo 31 apresenta algoritmos da teoria dos números. Após revisar a teoria elementar dos números, 
apresenta o algoritmo de Euclides para calcular máximo divisor comum. Em seguida, estuda algoritmos para resolver 
equações lineares modulares e para elevar um número a uma potência módulo um outro número. Então, explora uma 
importante aplicação de algoritmos de teoria dos números: o criptossistema RSA de chaves públicas. O criptossistema 
pode ser usado não somente para criptografar mensagens de modo a impedir que um adversário as leia, mas também 
para fornecer assinaturas digitais. Então, o capítulo apresenta o teste de primalidade aleatorizado de Miller-Rabin, que 
nos permite encontrar eficientemente grandes números primos — um requisito essencial para o sistema RSA. 
Finalmente, o capítulo estuda a heurística “rô” de Pollard, para fatorar números inteiros e discute as técnicas mais 
modernas da fatoração de inteiros. 


O Capítulo 32 estuda o problema de encontrar todas as ocorrências de uma dada cadeia-padrão em uma cadeia 
de texto dada, um problema que surge frequentemente em programas de edição de textos. Após examinar a abordagem 
ingênua, o capítulo apresenta uma abordagem elegante criada por Rabin e Karp. Então, depois de mostrar uma solução 
eficiente baseada em autômatos finitos, o capítulo apresenta o algoritmo de Knuth-Morris-Pratt, que modifica o 
algoritmo baseado em autômato para poupar espaço mediante o pré-processamento inteligente do padrão. 

O Capítulo 33 considera alguns problemas de geometria computacional. Após discutir primitivas básicas da 
geometria computacional, o capítulo mostra como usar um método de “varredura” para determinar eficientemente se um 
conjunto de segmentos de reta contém quaisquer interseções. Dois algoritmos inteligentes para determinar a envoltória 
convexa de um conjunto de pontos — a varredura de Graham e a marcha de Jarvis — também ilustram o poder de 
métodos de varredura. O capítulo termina com um algoritmo eficiente para determinar o par mais próximo em um dado 
conjunto de pontos no plano. 

O Capítulo 34 aborda problemas NP-completos. Muitos problemas computacionais interessantes são NP- 
completos, mas não há nenhum algoritmo de tempo polinomial conhecido para resolver qualquer deles. Esse capítulo 
apresenta técnicas para determinar quando um problema é NP-completo. Há vários problemas clássicos que são 
comprovadamente NP-completos: determinar se um grafo tem um ciclo hamiltoniano, determinar se uma fórmula 
booleana pode ser satisfeita e determinar se um determinado conjunto de números tem um subconjunto que equivale a 
um dado valor visado. O capítulo também prova que o famoso problema do caixeiro viajante é NP-completo. 

O Capítulo 35 mostra como determinar eficientemente soluções aproximadas para problemas NP-completos 
usando algoritmos de aproximação. Para alguns problemas NP-completos é bastante fácil produzir soluções 
aproximadas quase ótimas, mas para outros, até mesmo os melhores algoritmos de aproximação conhecidos funcionam 
cada vez pior à medida que o tamanho do problema aumenta. Então, há alguns problemas para os quais podemos 
investir quantidades cada vez maiores de tempo de computação em troca de soluções aproximadas cada vez melhores. 
Esse capítulo ilustra tais possibilidades com o problema da cobertura de vértices (versões não ponderada e ponderada), 
uma versão de otimização de satisfazibilidade 3-CNF, o problema do caixeiro viajante, o problema da cobertura de 
conjuntos e o problema da soma de subconjuntos. 


ps; , ÁLGORITMOS MULTITHREAD 


A vasta maioria dos algoritmos neste livro são algoritmos seriais adequados para execução em um computador 
com um único processador no qual só uma instrução é executada por vez. Neste capítulo, estendemos nosso modelo 
algorítmico para abranger algoritmos paralelos, que podem ser executados em computadores multiprocessadores que 
permitem a execução concorrente de várias instruções. Em particular, exploraremos o elegante modelo de algoritmos 
multithread dinâmicos, que se prestam ao projeto e à análise algorítmicos, bem como à implementação eficiente na 
prática. Computadores paralelos — computadores com várias unidades de processamento — são cada vez mais 
comuns e abrangem uma larga faixa de preços e desempenho. Chips multipro- cessadores relativamente baratos para 
computadores de mesa e laptops contêm um único chip de circuito integrado multinúcleo que abriga vários “núcleos” 
de processamento, cada um deles um processador totalmente desenvolvido que pode acessar uma memória comum. 
Em um ponto intermediário de preço/desempenho estão os grupos (clusters) montados com computadores individuais 
— quase sempre máquinas de classe PC — conectados por uma rede dedicada. As máquinas de preços mais altos são 
supercomputadores, que frequentemente usam uma combinação de arquiteturas customizadas e redes customizadas 
para oferecer o mais alto desempenho em termos de instruções executadas por segundo. 

Computadores multiprocessadores já estão por aí, sob uma forma ou outra, há décadas. Embora a comunidade da 
computação tenha adotado o modelo da máquina de acesso aleatório para computação serial já no início da história da 
ciência da computação, nenhum modelo de computação paralela conquistou tão ampla aceitação. Uma razão principal é 
que os fabricantes não chegaram a um consenso quanto a um único modelo arquitetônico para computadores paralelos. 
Por exemplo, alguns computadores paralelos possuem memória compartilhada, na qual cada processador pode 
acessar diretamente qualquer localização da memória. Outros computadores paralelos empregam memória 
distribuída, na qual a memória de cada processador é particular e é preciso enviar uma mensagem explicita entre 
processadores para que um processador acesse a memória de outro. Porém, com o advento da tecnologia multimcleo, 
agora cada novo laptop e computador de mesa é um computador paralelo de memória compartilhada, e aparentemente 
a tendência é a favor do multiprocessamento por memória compartilhada. Embora somente o tempo dirá, essa é a 
abordagem que adotaremos neste capítulo. 

Um meio comum de programar chips multiprocessadores e outros computadores paralelos de memória 
compartilhada é usar thread estático, que proporciona uma abstração em software de linhas de execução ou 
threads*, que compartilham uma memória comum. Cada thread mantém um contador de programa associado e pode 
executar código independentemente dos outros threads. O sistema operacional carrega um thread em um processador 
para execução e o desliga quando um outro thread precisa ser executado. Embora o sistema operacional permita que 
programadores criem ou destruam threads, essas operações são comparativamente lentas. Assim, para a maioria das 
aplicações, os threads persistem durante o tempo de uma computação, e é por essa razão que são denominados 
“estáticos”. 

Infelizmente, programar diretamente um computador paralelo de memória compartilhada usando threads estáticos é 
difícil e sujeito a erro. Uma razão é que repartir o trabalho dinamicamente entre os threads de modo que cada um 
receba aproximadamente a mesma carga se revela uma empreitada complicada. Para quaisquer aplicações, exceto as 
mais simples, o programador deve usar protocolos de comunicação complexos para implementar um escalonador para 


equilibrar a carga de trabalho. Esse estado de coisas levou à criação de plataformas de concorrência, que oferecem 
uma camada de software que coordena, escalona e gerencia os recursos de computação paralela. Algumas plataformas 
de concorrência são construídas como bibliotecas de tempo real, mas outras oferecem linguagens paralelas totalmente 
desenvolvidas com compilador e suporte em tempo real. 


Programação com multithread dinâmico 


Uma classe importante de plataforma de concorrência é o multithread dinâmico, modelo que adotaremos neste 
capítulo. Multithread dinâmico permite que programadores especifiquem paralelismo em aplicações sem que tenham de 
se preocupar com protocolos de comunicação, balanceamento de carga e outros eventos imprevisíveis da programação 
com threads estáticos. A plataforma de concorrência contém um escalonador que equilibra a carga de computação 
automaticamente, o que simplifica muito a tarefa do programador. Embora a funcionalidade dos ambientes de 
multithread dinâmico ainda esteja em desenvolvimento, quase todos suportam duas características: paralelismo aninhado 
e laços paralelos. Paralelismo aninhado permite que uma sub-rotina seja “gerada” (spawned), permitindo que o 
chamador prossiga enquanto a sub-rotina gerada está calculando o seu resultado. Um laço paralelo é como um laço for 
comum, exceto que as iterações do laço podem ser executadas concorrentemente. 

Essas duas características formam a base do modelo de multithread dinâmico que estudaremos neste capítulo. Um 
aspecto fundamental desse modelo é que o programador precisa especificar somente o paralelismo lógico dentro de 
uma computação, e os threads dentro da plataforma de concorrência subjacente escalonam e equilibram a carga da 
computação entre eles. Investigaremos algoritmos multithread escritos para esse modelo, e também como a plataforma 
de concorrência subjacente pode escalonar computações eficientemente. 

Nosso modelo para multithread dinâmico oferece várias vantagens importantes: 


«É uma simples extensão do nosso modelo de programação serial Podemos descrever um algoritmo multithread 
acrescentando ao nosso pseudocódigo apenas três palavras-chaves de “concorrência”: parallel, spawn e sync. 
Além do mais, se eliminarmos essas palavras-chaves de concorrência do pseudocódigo multithread, o texto 
resultante é pseudocódigo serial para o mesmo problema, o que denominamos “serialização” do algoritmo 
multithread. 

* Proporciona um modo teoricamente claro para quantificar paralelismo com base nas noções de “trabalho” e 
“duração”. 

*  Mutos algoritmos multithread que envolvem paralelismo aninhado decorrem naturalmente do paradigma divisão e 
conquista. Além do mais, exatamente como algoritmos seriais de divisão e conquista se prestam à análise por 
solução de recorrências, também os algoritmos multithread se prestam a essa mesma análise. 

* O modelo é fiel ao modo de evolução da prática da computação paralela. Um número cada vez maior de 
plataformas de concorrência suportam uma ou outra variante do multithread dinâmico, entre elas Cilk [51, 118], 
Cilk++ [72], OpenMP [60], Task Paralellel Library [230] e Threading Building Blocks [292]. 


A Seção 27.1 apresenta o modelo de multithread dinâmico e as métricas de trabalho, duração e paralelismo, que 
usaremos para analisar algoritmos multithread. A Seção 27.2 investiga como multiplicar matrizes com multithread, e a 
Seção 27.3 ataca o problema mais árduo de aplicar multithread à ordenação por inserção. 


271 (Os FUNDAMENTOS DO MULTITHREAD DINÂMICO 


Começaremos nossa exploração do multithread dinâmico usando o exemplo do cálculo recursivo de números de 
Fibonacci. Lembre-se de que números de Fibonacci são definidos por recorrência (3.22): 


F,=0, 

F=l, 

F= TF, paaizZ2. 

Apresentamos a seguir um algoritmo serial simples, recursivo, para calcular o n-ésimo número de Fibonacci: 
Frs(n) 

1 ifn<l 

2 return n 

3 else x = Frs(n — 1) 

4 y=Fís(n-—2) 

5 return x + y 


Na realidade não seria interessante calcular grandes números de Fibonacci desse modo, porque esse cálculo realiza 
muito trabalho repetido. A Figura 27.1 mostra a árvore de instâncias de procedimento recursivo que são criadas no 
cálculo de H,. Por exemplo, uma chamada a Fis(6) chama recursivamente Fis(5) e então Fis(4). Mas a chamada a Fis(5) 
também resulta em uma chamada a Frs(4). Ambas as instâncias de Frs(4) retornam o mesmo resultado (1, = 3). Visto 
que o procedimento Fis não memoiza, a segunda chamada a Fis(4) repete o trabalho que a primeira chamada realiza. 

Seja T(n) o tempo de execução de Fis(n). Visto que Fis(n) contém duas chamadas recursivas mais uma quantidade 
constante de trabalho extra, obtemos a recorrência 


T(n) = T(n— 1) + T(n — 2) + O(1): 


Essa recorrência tem solução T(n) = (F.), o que podemos mostrar utilizando o método de substitução. Para uma 
hipótese de indução, suponha que T(n) <a F, — b, onde a > 1 e b> O são constantes. Substituindo, obtemos 


(Fe) (Fis)  (Fis(2)) (Fis(1)) (Fis(1)) (Fis(0)) 


(Fis(2)) (CFis(1)) (CFis(1)) (Fis(0)) ( Fis(1)) ( Fis(0) ) ( Fis(1)) ( Fis(0)) 


Figura 27.1 A árvore de instâncias de procedimento recursivo para o cálculo de Fis(6). Cada instância de Fis que tenha os mesmos 
argumentos realiza o mesmo trabalho para produzir o mesmo resultado, proporcionando um modo ineficiente, mas interessante de 
calcular números de Fibonacci. 


T(n) < (1F,-bD+(1F.,—-bD+0(1) 
(PF, +F, )-2b+ 0(1) 


aF —b-(b-— O(1)) 
a Ee 


se escolhermos b grande o suficiente para dominar a constante no (1). Então podemos escolher a grande o suficiente 
para satisfazer a condição inicial. O limite analítico 


T(n) = O(b"), (27.1) 


onde = (1 + V5)/2 é a razão áurea, decorre agora da equação (3.25). 

Visto que F, cresce exponencialmente em n, esse procedimento é um modo particularmente lento de calcular 
números de Fibonacci. (Veja modos mais rápidos no Problema 31-3.) 

Embora seja um modo ruim de calcular números de Fibonacci, o procedimento Fis constitui um bom exemplo para 
ilustrar os principais conceitos na análise de algoritmos multithread. Observe que dentro de Fis(n), as duas chamadas 
recursivas nas linhas 3 e 4 a Fis(n-1) e Fis(n-2), respectivamente, são independentes uma da outra: poderiam ser 
chamadas em qualquer ordem, e a computação executada por uma delas em nada afeta a outra. Portanto, as duas 
chamadas recursivas podem ser executadas em paralelo. 

Aumentamos nosso pseudocódigo para indicar paralelismo acrescentando as palavras-chaves de concorrência 
spawn e sync. Agora, apresentamos como podemos reescrever o procedimento FIB para usar multithread dinâmico: 


P-Frs(n) 

1 ifn<1 

2 return 1 

3 else x = spawn P-Frs(n — 1) 
4 y = P-Fis(n — 2) 

5 sync 

6 return x + y 


Observe que, se eliminarmos as palavras-chaves de concorrência spawn e sync de P-Fr, o texto de 
pseudocódigo resultante é idêntico ao de Fis (exceto o nome do procedimento no cabeçalho e nas duas chamadas 
recursivas). Definimos a serialização de um algoritmo multithread como o algoritmo serial que resulta da eliminação das 
palavras-chaves multithread: spawn, sync e, quando examinamos laços, parallel. De fato, nosso pseudocódigo 
multithread tem a seguinte propriedade atraente: uma serialização é sempre pseudocódigo serial comum para resolver o 
mesmo problema. 

Paralelismo aninhado ocorre quando a palavra-chave spawn precede uma chamada de procedimento, como na 
linha 3. A semântica de uma geração (spawn) é diferente da semântica de uma chamada de procedimento comum, no 
sentido de que a instância de procedimento que executa a geração — o pai — pode continuar a ser executada em 
paralelo com a sub-rotina gerada — seu filho, em vez de esperar pela conclusão do filho, como normalmente 
aconteceria em uma execução serial Nesse caso, enquanto o filho gerado está calculando P-Frs(n — 1), o pai pode 
continuar a calcular P-Fis(n — 2) na linha 4 em paralelo com o filho gerado. Visto que o procedimento P-Fis é recursivo, 
essas mesmas duas chamadas de sub-rotinas criam paralelismo alinhado, assim como seus filhos, criando assim uma 
árvore potencialmente vasta de subcomputações, todas executadas em paralelo. 

Contudo, a palavra-chave spawn não diz que um procedimento deve ser executado concorrentemente com seu 
filho gerado, diz apenas que pode. As palavras-chaves de concorrência expressam o paralelismo lógico da 
computação, indicando quais partes da computação podem prosseguir em paralelo. Em tempo real, cabe a um 
escalonador determinar quais subcomputações realmente são executadas concorrentemente designando a elas 
processadores disponíveis à medida que a computação transcorre. Em breve, discutiremos a teoria que fundamenta 
escalonadores. 

Um procedimento não pode utilizar com segurança os valores retornados por seus filhos gerados até executar uma 
declaração sync, como na linha 5. A palavra-chave sync indica que o procedimento deve esperar o quanto for 
necessário pela conclusão de todos os seus filhos gerados antes de passar para a declaração depois de sync. No 
procedimento P-Fis, é preciso uma sync antes da declaração retum na linha 6 para evitar a anomalia que ocorreria se 
x ey fossem somados antes de x ser calculado. Além da sincronização explícita proporcionada pela declaração sync, 


todo procedimento executa uma sync implicitamente antes de retornar, garantindo assim que todos os seus filhos 
terminam antes dela. 


Um modelo para execução multithread 


Ajuda imaginar uma computação multithread — o conjunto de instruções em tempo real executadas por um 
processador em nome de um programa multithread — como um grafo acíclico dirigido G = (V, E), denominado um gad 
de computação. Como exemplo, a Figura 27.2 mostra o gad de computação que resulta do cálculo de P-Frr(4). 
Conceitualmente, os vértices em V são instruções, e as arestas em E representam dependências entre instruções, onde 
(u, v) E E significa que a instrução u deve ser executada antes da instrução v. Todavia, por conveniência, se uma 
cadeia de instruções não contém nenhum controle paralelo (nenhuma spawn, sync ou retum de uma spawn — seja 
por meio de uma declaração retum explícita ou por meio de um retorno que ocorre implicitamente ao chegar ao fim de 
um procedimento), podemos agrupá-las em uma única fibra (strand), cada uma das quais representa uma ou mais 
instruções. Instruções que envolvem controle paralelo não são incluídas em fibras, mas são representadas na estrutura 
do gad. Por exemplo, se uma fibra tem dois sucessores, um deles deve ter sido gerado, e uma fibra com vários 
predecessores indica que os predecessores se uniram por causa de uma declaração sync. Assim, no caso geral, o 
conjunto V forma o conjunto de fibras, e o conjunto E de arestas dirigidas, representa dependências entre fibras 
induzidas por controle paralelo. Se G tem um caminho dirigido da fibra u até a fibra v, dizemos que as duas fibras estão 
(logicamente) em série. Caso contrário, os filamentos u e v estão (logicamente) em paralelo. 


Figura 27.2 Um grafo acíclico dirigido que representa a computação de P-Frs(4). Cada círculo representa uma fibra. Círculos pretos 
representam ou casos bases ou parte do procedimento (instância) até a geração do P-Frs (n - 1) na linha 3. Círculos sombreados 
representam a parte do procedimento que chama P-Fis(n - 2) na linha 4 até sync na linha 5, onde fica suspenso até que P-Frs(n - 1) 
retome. Círculos brancos representam a parte do procedimento depois de sync onde ele soma x e y até o ponto emque retoma o 
resultado. Cada grupo de fibras que pertencem ao mesmo procedimento é cercada por umretângulo de cantos arredondados, 
sombreado emtommais claro para procedimentos gerados e emtommais escuro para procedimentos chamados. Emarestas geradas e 
arestas de chamada as setas apontam para baixo, em arestas de continuação elas apontam para a direita na horizontal e em arestas de 


retomo apontam para cima. Considerando que cada fibra demora uma unidade de tempo, o trabalho é iguala 17 unidades de tempo, 
visto que há 17 filamentos, e a duração é 8 unidades de tempo, já que o caminho crítico — mostrado por arestas sombreadas — contém 
8 fibras. 


Podemos representar uma computação multithread como um gad de fibras embutido em uma árvore de instância 
de procedimentos. Por exemplo, a Figura 27.1 mostra a árvore de instâncias de procedimento para P-Frs(6) sem a 
estrutura detalhada que mostra as fibras. A Figura 27.2 mostra o detalhe de uma seção daquela árvore, onde podemos 
ver as fibras que constituem cada procedimento. Todas as arestas dirigidas que conectam fibras são executadas ou 
dentro de um procedimento ou ao longo de arestas não dirigidas na árvore de procedimentos. 

Podemos classificar as arestas de um gad de computação para indicar o tipo de dependências entre as várias 
fibras. Uma aresta de continuação (u, u”), desenhada na horizontal na Figura 27.2, conecta uma fibra u a seu 
sucessor u "dentro da mesma instância de procedimento. Quando uma fibra u gera uma fibra v, um gad contém uma a 
aresta geradora (u, v), que aponta para baixo na figura. Arestas de chamada, que representam chamadas de 
procedimento normais, também apontam para baixo. Fibra u gerar fibra v é diferente de u chamar v no sentido de que 
uma geração induz uma aresta de continuação horizontal de u até a fibra u”e segue u em seu procedimento, indicando 
que u "está livre para ser executado ao mesmo tempo que v, ao passo que uma chamada não induz tal aresta. Quando 
uma fibra u retorna a seu procedimento de chamada e x é o filamento que vem imediatamente após a próxima sync no 
procedimento de chamada, o gad de computação contém a aresta de retorno (u, x), que aponta para cima. Uma 
computação começa com uma única fibra inicial — o vértice preto no procedimento identificado por P-Fis(4) na 
Figura 27.2—e termma com uma única fibra final — o vértice branco no procedimento identificado por P-Fis(4). 

Estudaremos a execução de algoritmos multithread em um computador paralelo ideal, que consiste em um 
conjunto de processadores e uma memória compartilhada sequencialmente con- sistente. Consistência sequencial 
significa que a memória compartilhada, que na realidade pode estar executando muitas cargas e armazenamentos de 
processadores ao mesmo tempo, produz os mesmos resultados como se a cada etapa executasse exatamente uma 
instrução de um dos processadores. Isto é, a memória se comporta como se as instruções fossem executadas 
sequencialmente de acordo com alguma ordem linear global que preserva as ordens individuais nas quais cada 
processador emite suas próprias instruções. Para computações multithread dinâmicas, que são escalonadas para 
processadores automaticamente pela plataforma de concorrência, a memória compartilhada comporta-se como se as 
instruções da computação multithread fossem intercaladas para produzir uma ordem linear que preserva a ordem parcial 
do gad de computação. Dependendo do escalonamento, a ordenação pode ser diferente de uma execução do 
programa para outra, mas o comportamento de qualquer execução pode ser entendido considerando que as instruções 
dão executadas em alguma ordem linear consistente com o gad de computação. 

Além de tais considerações semânticas, o modelo do computador paralelo ideal também faz algumas 
considerações de desempenho. Especificamente, o modelo supõe que cada processador na máquina tem a mesma 
capacidade de computação e ignora o custo do escalonamento. Embora essa última suposição possa parecer otimista, 
acontece que para algoritmos com “paralelismo” suficiente (um termo que definremos exatamente em breve), a 
sobrecarga de escalonamento geralmente é mínima na prática. 


Medidas de desempenho 


Podemos aferir a eficiência teórica de um algoritmo multithread medindo duas medidas: “trabalho” e “duração.” O 
trabalho de uma computação multithread é o tempo total para executar a computação inteira em um processador. Em 
outras palavras, o trabalho é a soma dos tempos gastos por cada uma das fibras. Para um gad de computação no qual 
cada fibra demora um tempo unitário, o trabalho é apenas o número de vértices no gad. A duração é o tempo mais 
longo para executar as fibras ao longo de qualquer caminho no gad. 

Novamente, para um gad no qual cada fibra demora um tempo unitário, a duração é igual ao número de vértices 
em um caminho de comprimento máximo, ou caminho crítico no gad. (Lembre-se de que a Seção 24.2 mostrou que 


podemos encontrar um caminho crítico em um gad G = (V, E) no tempo (V + E)). Por exemplo, o gad de computação 
da Figura 27.2 tem 17 vértices ao todo e 8 vértices em seu caminho crítico, de modo que, se cada fibra demorar tempo 
unitário, seu trabalho é 177 unidades de tempo e sua duração é 8 unidades de tempo. 

O tempo de execução propriamente dito de uma computação multithread depende não somente de seu trabalho e 
de sua duração, mas também de quantos processadores estão disponíveis e de como o escalonador aloca fibras a 
processadores. Para denotar o tempo de execução de uma computação multithread em P processadores, usaremos o 
subscrito P. Por exemplo, poderíamos denotar o tempo de execução de um algoritmo em P processadores por T, . O 
trabalho é o tempo de execução em um único processador, ou T,. A duração é o tempo de execução se pudéssemos 
executar cada fibra em seu próprio processador-—em outras palavras, se tivéssemos um número ilimitado de 
processadores — e portanto, denotamos a duração por To. 

O trabalho e a duração dão limites inferiores para o tempo de execução T, de uma computação multithread em P 
processadores: 


* Em uma etapa, um computador paralelo ideal com P processadores pode realizar no máximo P unidades de 
trabalho, e assim, no tempo 7», ele pode realizar máximo o trabalho PT. Visto que o trabalho total a realizar é T,, 
temos PT, > T,. Dividindo por P obtemos a lei do trabalho: 


LT, T/R (27.2) 


* Um computador paralelo ideal com P processadores não pode executar mais rapidamente do que uma máquina 
com um número ilimitado de processadores. Visto por outro ângulo, uma máquina com um número ilimitado de 
processadores pode emular uma máquina com P processadores utilizando apenas P de seus processadores. 
Assim, decorre a lei da duração: 


TT; (27.3) 


Definimos o fator de aceleração de uma computação em P processadores pela razão T,/T,, que diz quantas 
vezes uma computação com P processadores é mais rápida que com 1 processador. Pela lei do trabalho, temos Tp > 
TP, o que implica que 7,/Tp < P. Assim, o fator de aceleração em P processadores pode ser no máximo P. Quando 
o fator de aceleração é linear em relação ao número de processadores, isto é, quando 7'/T, = (P), a computação exibe 
fator de aceleração linear, e quando T,/T, = P temos fator de aceleração linear perfeito. 

A razão T,/To entre o trabalho e a duração dá o paralelismo da computação multithread. Podemos enxergar o 
paralelismo de três pontos de vista. Como uma razão, o paralelismo denota a quantidade média de trabalho que pode 
ser realizada em paralelo para cada etapa ao longo do caminho crítico. Como um limite superior, o paralelismo dá o 
máximo fator de aceleração possível que pode ser conseguido com qualquer número de processadores. Finalmente, e 
talvez mais importante, o paralelismo dá um limite para a possibilidade de conseguir fator de aceleração linear perfeito. 
Especificamente, tão logo o número de processadores exceda o paralelismo, não há nenhuma possibilidade de 
conseguir fator de aceleração linear perfeito na computação. Para ver esse último ponto, suponha que P > 7',/To, caso 
em que a lei da duração implica que o fator de aceleração satisfaz T,/T, < T,/To < P. Além disso, se o número P de 
processadores no computador paralelo ideal for muito maior do que o paralelismo — isto é, se P >> T/To — então 
TT, << P, de modo que o fator de aceleração é muito menor que o número de processadores. Em outras palavras, 
quanto mais processadores usarmos além do paralelismo, menos perfeito o fator de aceleração. 

Como exemplo, examine a computação P-Frs(4) na Figura 27.2, e suponha que cada fibra demora tempo unitário. 
Visto que o trabalho é 7, = 17 e a duração é To = 8, o paralelismo é 7,/To = 17/8 = 2,125. Consequentemente, 
conseguir muito mais que o dobro do fator de aceleração é impossível, não importando quantos processadores 
empregamos para executar a computação. Contudo, para tamanhos maiores de entradas, veremos que P-Frs(n) exibe 
substancial paralelismo. 

Definimos a folga (paralela) de uma computação multithread executada em um computador paralelo ideal com P 
processadores como a razão (7,/To)/P = T MPT»), que é o fator que representa quantas vezes o paralelismo da 


computação excede o número de processadores na máquina. Assim, se a folga é menor que 1, não podemos esperar 
conseguir um fator de aceleração linear perfeito, porque TM(PT»o)< 1 ea lei da duração implica que o fator de 
aceleração em P processadores satisfaz 7,/T, < T//To < P. Realmente, à medida que folga diminui de 1 até 0, o fator 
de aceleração da computação diverge cada vez mais do fator de aceleração linear perfeyto. Todavia, se a folga é maior 
que 1, o trabalho por processador é a restrição limitativa. Como veremos, à medida que a folga aumenta em relação a 
1, um bom escalonador pode chegar cada vez mais perto de um fator de aceleração linear perfeito. 


Escalonamento 


Bom desempenho depende de mais coisas do que apenas minimizar trabalho e duração. As fibras também têm de 
ser escalonadas eficientemente nos processadores da máquina paralela. Nosso modelo de programação multithread não 
dá nenhum modo para especificar quais fibras executar em quais processadores. Em vez disso, confiamos no 
escalonador da plataforma de concorrência para mapear a computação que está se desenvolvendo dinamicamente para 
processadores individuais. Na prática, o escalonador mapeia as fibras para threads estáticos e o sistema operacional 
escalona os threads nos próprios escalonadores, mas esse nível extra de indireção é desnecessário para entendermos o 
escalonamento. Basta imaginar que o escalonador da plataforma de concorrência mapeia fibras para processadores 
diretamente. 

Um escalonador multithread deve escalonar a computação sem saber de antemão quando as fibras serão geradas 
ou quando serão concluídos — ele tem de funcionar on-line. Além do mais, um bom escalonador funciona de modo 
distribuído, no qual os threads que implementam o escalonador cooperam no equilíbrio de cargas da computação. 
Existem escalonadores distribuídos, on-line provadamente bons, mas analisá-los é complicado. 

Em vez disso, para manter a simplicidade de nossa análise, investigaremos um escalonador centralizado on-line, 
que sabe qual é o estado global da computação a qualquer tempo dado. Em particular, analisaremos escalonadores 
gulosos, que designam o maior número possível de filamentos a processadores em cada etapa de tempo. Se no mínimo 
P fibras estão prontas para executar durante uma etapa de tempo, dizemos que essa é uma etapa completa, e um 
escalonador guloso designa qualquer P das fibras prontas a processadores. Caso contrário, um número menor do que 
P fibras estão prontas para executar, e então dizemos que essa é uma etapa incompleta, e o escalonador designa cada 
fibra pronta a seu próprio processador. 

Pela lei do trabalho, o melhor tempo de execução que podemos esperar para P processadores é 7, = T,/P, e pela 
lei da duração o melhor que podemos esperar é T, = T. O teorema a seguir mostra que o escalonamento guloso é 
provadamente bom no sentido de que faz da soma desses dois limites inferiores um limite superior. 


Teorema 27.1 


Em um computador paralelo ideal com P processadores, um escalonador guloso executa uma computação multithread 
com trabalho 7, e duração Tc no tempo 


T<T/P+T, (27.4) 


Prova Começamos considerando as etapas completas. Em cada etapa completa, os P processadores juntos executam 
um total de trabalho P. Suponha, por contradição, que o número de etapas completas é estritamente maior que T,/P. 


Então, o trabalho total das etapas completas é no mínimo 
p(tr/pl+n) = PLr/pl+P 

T,-(T;modP)+P (pela equação (3.8)) 

(pela desigualdade (3.9)) . 


Vau 


1 


Assim, obtemos a contradição que os P processadores executariam mais trabalho que o exigido pela computação, o 
que nos permite concluir que o número de etapas completas é no máximo T,/P. 


Agora, considere uma etapa incompleta. Seja G o gad que representa a computação inteira e, sem perda da 
generalidade, suponha que cada filamento demora tempo unitário. (Podemos substiturr cada fibra mais longa por uma 
cadeia de fibras de tempo unitário.) Seja G” o subgrafo de G que ainda tem de ser executado no início da etapa 
incompleta, e seja G” o subgrafo que resta para ser executado depois da etapa incompleta. Um caminho de 
comprimento máximo em um gad deve necessariamente começar em um vértice com grau de entrada 0. Visto que uma 
etapa incompleta de um escalonador guloso executa todas as fibras com grau de entrada O em G”, o comprimento do 
caminho de comprimento máximo em G” deve ter uma unidade a menos que o comprimento do caminho de 
comprimento máximo em G”. Em outras palavras, uma etapa incompleta dimmui de 1 a duração do gad não executado. 
Por consequência, o número de etapas incompletas é no máximo To. 

Visto que cada etapa ou é complete ou é incompleta, o teorema segue. 


O seguinte corolário para o Teorema 27.1 mostra que um escalonador guloso sempre funciona bem. 


Corolário 27.2 


O tempo de execução Tp de qualquer computação multithread escalonada por um escalonador guloso em um 
computador paralelo ideal com P processadores está dentro de um fator de 2 emrelação ao ótimo. 

Prova Seja T,? o tempo de execução produzido por um escalonador ótimo em uma máquina com P processadores, e 
sejam 7, e Too trabalho e a duração da computação, respectivamente. Visto que as leis do trabalho e da duração — 
desigualdades (27.2) e (27.3) — nos dão T'*P > max(T/P, Tx), o Teorema 27.1 implica que 


to É EIPHE, 


P 
2-max(T /P,T.) 
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O próximo corolário mostra que, de fato, um escalonador guloso consegue fator de aceleração linear quase 
perfeito em qualquer computação multithread à medida que a folga aumenta. 


Corolário 27.3 


Seja Tp o tempo de execução de uma computação multithread produzida por um escalonador guloso em um 
computador paralelo ideal com P processadores, e sejam 7, e To o trabalho e a duração da computação, 
respectivamente. Então, se P << T//To, temos Tp = T/P, ou o que é equivalente, um fator de aceleração de 
aproximadamente P. 

Prova Se supusermos que P << T,/To, então temos também Ti << T,/P e, por consequência, o Teorema 27.1 nos dá 
To <T/P+4 To= TP. Visto que a lei do trabalho (27.2) impõe que T; > 7,/P, concluímos que T; = T,/P, ou o que é 
equivalente, que o fator de aceleração é T,/T, = P. 


O símbolo << denota “muito menos,” mas quanto menos é “muito menos”? Como regra prática, uma folga de no 
mínimo 10 — isto é, 10 vezes mais paralelismo que processadores — geralmente é suficiente para conseguir um bom 
fator de aceleração. Então, o termo de duração no limite guloso, desigualdade (27.4), é menor que 10% do tempo de 
trabalho por processador, que é suficientemente bom para a maioria das situações encontradas na engenharia. Por 
exemplo, se uma computação for executada em somente 10 ou 100 processadores, não tem sentido preferir paralelismo 
de, digamos, 1.000.000 em comparação com o paralelismo de 10.000, mesmo com o fator de 100 para a diferença. 
Como mostra o Problema 27-2, reduzindo o paralelismo extremo, às vezes podemos obter algoritmos que são 
melhores em relação a outros tópicos e que aproveitam bem um número razoável de processadores. 


Análise de algoritmos multithread 


Agora, temos todas as ferramentas que precisamos para analisar algoritmos multithread e conseguir bons limites 
para seus tempos de execução com vários números de processadores. Analisar o trabalho é relativamente direto, visto 
que nada mais é do que analisar o tempo de execução de um algoritmo serial comum — isto é, a serialização do 
algoritmo multithread — com o que você já deve estar familiarizado, visto que a quase totalidade deste livro trata dele! 
Analisar a duração é mais interessante, porém, em geral, não é mais difícil, desde que você pegue o jeito da coisa. 
Investigaremos as idéias básicas utilizando o programa P-Fis. 

Analisar o trabalho T(n) de P-Fis(n) não apresenta obstáculos, porque já o fizemos. O procedimento Fis original é 
essencialmente a serialização de P-Fis e, por consequência, T(n) = T(n) = (,) pela equação (27.1). 

A Figura 27.3 ilustra como analisar a duração. Se duas subcomputações estão ligadas em série, suas durações se 
somam para formar a duração de sua composição, ao passo que, se estiverem ligadas em paralelo, a duração de sua 
composição é o máximo das durações das duas subcomputações. Para P-Frs(n), a chamada gerada a P-Fis(n—1) na 
linha 3 é executada em paralelo com a chamada a P-Frs(n — 2) na linha 4. Por consequência, podemos expressar a 
duração de P-Frs(n) como a recorrência 


Tn) = mar im — 1), T An = 2) + (1) 
T dn — 1) + O(1), 


cuja solução é Too(n) = (n). 

O paralelismo de P-Fris(n) é T(n)/To(n) = (/n), que cresce dramaticamente à medida que n fica grande. Assim, 
mesmo nos maiores computadores paralelos, um valor modesto para n é suficiente para conseguir um fator de 
aceleração linear quase perfeito para P-Frs(n), porque esse procedimento exibe folgas paralelas consideráveis. 


EM a O 


Trabalho: T(AU B) = T(4) + T(B) Trabalho: T (AU B) = T(A4) + T(B) 
Duração: T(AU B) = T(A) + T(B) Duração: T(AU B) = max(T (4), T(B)) 
(a) (b) 


Figura 27.3 O trabalho e a duração de subcomputações compostas. (a) Quando duas subcomputações são ligadas emsérie, o trabalho 
da composição é a soma de seus trabalhos, e a duração da composição pela soma de suas durações. (b) Quando duas subcomputações 
são ligadas em paralelo, o trabalho de composição continua sendo a soma de seus trabalhos, mas a duração da composição é somente o 
máximo de suas durações. 


Laços paralelos 


Muítos algoritmos contêm laços nos quais todas as iterações podem funcionar em paralelo. Como veremos, 
podemos paralelizar tais laços utilizando as palavras-chave spawn e sync, porém é muito mais conveniente especificar 
diretamente que as iterações de tais laços podem ser executadas concorrentemente. Nosso pseudocódigo proporciona 
essa funcionalidade por meio da palavra-chave de concorrência parallel, que precede a palavra-chave for em uma 
declaração de laço for. 

Como exemplo, considere o problema de multiplicar uma matriz n x n 4 = (a;) por um n-vetor x = (x;). O n-vetor 
resultante y = (:) é dado pela equação 


n 
y; = > Bd, ú 
jai 


para i = 1,2,...,n. Podemos efetuar a multiplicação matriz-vetor calculando todas as entradas de y em paralelo da 
seguinte maneira: 


MArT-VEC(A, x) 


il n = Ainhas 

2 seja y um novo vetor de comprimento n 
3 parallel fori= 1 ton 

4 y,=0 

5 parallel fori=1 ton 

6 forj=1ton 

7 E UT RA, 

8 return y 


Nesse código, as palavras-chave parallel for nas linhas 3 e 5 indicam que as iterações dos respectivos laços 
podem ser executadas concorrentemente. Um compilador pode implementar cada laço parallel for como uma sub- 
rotina com divisão e conquista utilizando paralelismo aninhado. Por exemplo, o laço parallel for nas linhas 5-7 pode 
ser implementado com a chamada Mar-Vec-Mann-Loor(A, x, Y, n, 1, n), onde o compilador produz a sub-rotina auxiliar 
Mar-Vec- -Main-Loor da seguinte maneira: 


Mar-VEc-MAIN-LooP(A, x,y, 1n,1,1”) 
Ei== 7" 
forj=1 ton 
W=Y+Ha,x, 
else mid=[(i+i)/2] 
spawn MaT-VEc-MAIN-LOOP(A, x, y, n,1, mid) 
Mar-VEc-MaIn-LooP(A, x,y, n, mid + 1,1”) 
sync 


JOG EO 


Esse código gera recursivamente a primeira metade das iterações do laço para ser executada em paralelo com a 
segunda metade das iterações e depois executa uma sync, criando assim uma árvore binária de execução na qual as 
folhas são iterações de laço individuais, como mostra a Figura 27.4. 

Para calcular o trabalho T,(n) de Mar-Vec em uma matriz nxn, simplesmente calculamos o tempo de execução de 
sua serialização, o que obtemos substituindo os laços parallel for por laços for comuns. Assim, temos T((n) = (n,), 
porque o tempo de execução quadrático dos laços duplamente aninhados nas linhas 5-7 domma. Contudo, essa análise 
parece ignorar a sobrecarga para geração recursiva na implementação dos laços paralelos. Na verdade, a sobrecarga 
da geração recursiva aumenta o trabalho de um laço paralelo em comparação com o trabalho de sua serialização, mas 
não assintoticamente. Para ver por que, observe que, como a árvore de instâncias de procedimento recursivo é uma 
árvore binária cheia, o número de nós internos é uma unidade menor que o número de folhas (veja o Exercício B.5-3). 
Cada nó interno realiza trabalho constante para dividir a faixa de iteração, e cada folha corresponde a uma iteração do 
laço, que demora no mínimo o tempo constante ((n) nesse caso). Assim, podemos amortizar a sobrecarga de geração 
recursiva em relação ao trabalho das iterações, contribuindo no máximo com um fator constante para o trabalho global. 
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Figura 27.4 Um gad que representa a computação de Mar-Vec-Marn-Loor(A, x, y, 8, 1, 8). Os dois números dentro de cada retângulo com 
cantos arredondados dão os valores dos dois últimos parâmetros (i e i'no cabeçalho do procedimento) na invocação (geração ou 
chamada) do procedimento. Os círculos pretos representam fibras que correspondemou ao caso-base ou à parte do procedimento até a 
geração de Mar-Vec-Marn-Loor na linha 5; os círculos sombreados representam fibras que correspondem à parte do procedimento que 
chama Mar-Vec--Marn-Loor na linha 6 até a sync na linha 7, onde é suspenso até que a sub-rotina gerada na linha 5 retorne; e os círculos 
brancos representam fibras que correspondemá parte (desprezível) do procedimento após a sync até o ponto onde ela retorna. 


Como questão prática, aplicar multithread dinâmico a plataformas de concorrência, às vezes, adensa as folhas da 
recursão por executar várias iterações em uma única folha, seja automaticamente, seja sob controle do programador, 
reduzindo assim a sobrecarga da geração recursiva. Todavia, essa sobrecarga reduzida é conseguida à custa de reduzir 
também o paralelismo. Porém, se a computação tem folga paralela suficiente, o fator de aceleração linear quase perfeito 
não precisa ser sacrificado. 

Também temos de levar em conta a sobrecarga de geração recursiva quando analisamos a duração de um 
constructo de laço paralelo. Visto que a profundidade da chamada recursiva é logarítmica em relação ao número de 
iterações, para um laço paralelo com n iterações no qual a i-ésima iteração tem duração iter(i), a duração é 


Tn) = O(lg n) = max iter (1). 


LSTEM 

Por exemplo, para Mar-Vec em uma matriz n X n, o laço de inicialização paralelo nas linhas 3-4 tem duração (lg n) 
porque a geração recursiva domina o trabalho de tempo constante de cada iteração. A duração dos laços duplamente 
aninhados nas linhas 5-7 é (n) porque cada iteração do laço parallel for externo contém n iterações do laço for 
interno (serial). A duração do código restante no procedimento é constante e, assim, a duração é dominada pelos laços 
duplamente aninhados, o que produz uma duração global de (n) para todo o procedimento. Visto que o trabalho é (n,), 
o paralelismo é (n,)/(n) = (n). (O Exercício 27.1-6 pede que você dê uma implementação que tenha paralelismo ainda 
maior.) 


Condições de corrida 


Um algoritmo multithread é determinístico se sempre faz a mesma coisa na mesma entrada, não importando como 
as instruções são escalonadas no computador multinúcleo. É não determinístico se seu comportamento pode variar de 
execução para execução. Muitas vezes, um algoritmo multithread que deveria ser determinístico deixa de ser porque 
contém uma “corrida de determinância”. 

Condições de corrida são os venenos da concorrência. Entre os bugs famosos de corrida citamos o aparelho de 
radioterapia Therac-25, que matou três pessoas e feriu várias outras, e o blecaute que ocorreu nos Estados Unidos em 
2003, que deixou mais de 50 milhões de pessoas sem energia elétrica. Esses bugs perniciosos são notoriamente dificeis 


de descobrir. Você pode executar testes em laboratório dias a fio sem ocorrer nenhuma falha, só para descobrir que seu 
software quebra esporadicamente em campo. 

Uma corrida de determinância ocorre quando duas instruções logicamente paralelas acessam a mesma 
localização de memória, e no mínimo uma das instruções faz uma gravação. O seguinte procedimento ilustra a condição 
de corrida: 


RAcE-ExaMPLE() 


1 g=l 

PA parallel for 1 = 1 to 2 
3 x=x+1 

4 print x 


Após inicializar x como O na linha 1, Race-Exampr: cria duas fibras paralelas e cada uma incrementa x na linha 3. 
Embora aparentemente Race-ExampLr deva sempre imprimir o valor 2 (sua serialização certamente o faz), poderia 
imprimir o valor 1. Vamos ver como essa anomalia poderia ocorrer. 

Quando um processador incrementa x, a operação não é indivisível, mas é composta por uma sequência de 
instruções: 


1. Leia x da memória para um dos registradores do processador. 
2. Incremente o valor no registrador. 
3. Grave o valor no registrador de volta em x na memória. 


A Figura 27.5(a) ilustra um gad de computação que representa a execução de Race-ExampLe, com as fibras 
decompostas em instruções individuais. Lembre-se de que, como um computador paralelo ideal suporta consistência 
sequencial, podemos ver a execução paralela de um algoritmo multithread como uma intercalação de instruções que 
respeita as dependências no gad. A parte (b) da figura mostra os valores em uma execução da computação que revela a 
anomalia. O valor x é armazenado na memória, e rm e r> são registradores de processador. Na etapa 1, um dos 
processadores atribui O a x. Nas etapas 2 e 3, o processador 1 lê x da memória para seu registrador r e o incrementa, 
produzindo o valor 1 emr,. Nesse ponto, o processador 2 entra em cena e executa as instruções 4-6. O processador 
2 Iê x da memória para o registrador r,; incrementa o registrador, produzindo o valor 1 em r,; depois armazena esse 
valor em x, definindo x como 1. Agora, o processador 1 retoma a etapa 7, armazenando o valor 1 em 7, emx, o que 
deixa o valor de x inalterado. Portanto, a etapa 8 imprime o valor 1, em vez de 2, como a serialização imprimiria. 

Podemos ver o que aconteceu. Se o efeito da execução paralela fosse que o processador 1 executa todas as suas 
instruções antes do processador 2, o valor 2 seria impresso. 

Ao contrário, se o efeito fosse que o processador 2 executa todas as suas instruções antes do processador 1, o 
valor 2 ainda seria impresso. Contudo, quando as instruções dos dois processadores são executadas ao mesmo tempo, 
é possível, como nesse exemplo de execução, que uma das atualizações para x seja perdida. 

É claro que muitas das execuções não expõem o bug. Por exemplo, se a ordem da execução fosse (1, 2, 3, 7,4, 
5, 6,8) ou (1,4,5,6,2,3, 7, 8), obteriamos o resultado correto. Esse é o problema das corridas de determinância. 
Em geral, a maioria das ordenações produz resultados corretos — como qualquer uma na qual as instruções à esquerda 
são executadas antes das instruções à direita ou vice-versa. Porém, algumas ordenações geram resultados impróprios 
quando as instruções se intercalam. Consequentemente, pode ser muito dificil testar corridas. Você pode executar testes 
dias a fio e nunca ver o bug, só para sofrer uma catastrófica queda do sistema em campo quando o resultado é crítico. 
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Figura 27.5 Ilustração da corrida de determinância em RACE-EXAMPLE. (a) Um gad de computação que mostra as dependências entre 
instruções individuais. Os registradores do processador são rie r». Instruções não relacionadas coma corrida, como a implementação de 
controle de laço, são omitidas. (b) Uma sequência de execução que revela o bug, mostrando os valores de x na memória e nos 
registradores ri e r2 para cada etapa na sequência de execução. 


Embora haja vários modos possíveis de enfrentar corridas, incluindo utilizar travas de exclusão mútua e outros 
métodos de sincronização, para a nossa finalidade simplesmente garantiremos que filamentos que funcionam em paralelo 
são independentes: não existe nenhuma corrida de determinância entre eles. Assim, em um constructo parallel for, 
todas as iterações devem ser independentes. Entre uma spawn e a sync correspondente, o código do filho gerado deve 
ser independente do código do pai, incluindo código executado por filho adicional gerado ou chamado. Observe que 
argumentos para um filho gerado são avaliados no pai antes de ocorrer a geração propriamente dita e, assim, a 
avaliação de argumentos para uma sub-rotina gerada é em série com quaisquer acessos àqueles argumentos após a 
geração. 

Como exemplo que mostra como é fácil gerar código com corridas, apresentamos uma implementação defeituosa 
de multiplicação multithread de matriz por vetor que alcança uma duração de (lg n) pela paralelização do laço for 
interno: 


MarT-VEc-WRoNc(A, x) 
n = Alinhas 
seja y um novo vetor de comprimento n 
parallel fori= 1 ton 
y,=0 
parallelfori= 1 ton 
parallel for; = 1 ton 


y, =Yyta, X, 


CONOR ONm 


return y 


Infelizmente, esse procedimento é incorreto por causa de corridas na atualização y, na linha 7, que é executada 
concorrentemente para todos os n valores de j. O Exercício 27.1-6 pede que você dê uma implementação correta com 
duração (lg n). 


Ás vezes, um algoritmo multithread com corridas pode estar correto. Como exemplo, dois threads paralelos 
poderiam armazenar o mesmo valor em uma variável compartilhada e não importaria qual armazenaria o valor antes. 
Todavia, em geral, consideraremos códigos com corridas ilegais. 


Uma aula de xadrez 


Concluímos esta seção com uma história verdadeira que ocorreu durante o desenvolvimento do programa 
multithread de classe mundial para jogar xadrez denominado * Socrates [81], embora os tempos a seguir tenham sido 
simplificados para essa demonstração. O programa foi prototipado em um computador com 32 processadores, mas 
afinal era para ser executado em um supercomputador com 512 processadores. A certa altura, os desenvolvedores 
incorporaram uma otimização no programa que reduzia seu tempo de execução em relação a um importante padrão de 
comparação estabelecido na máquina de 32 processadores de T,2 = 65 segundos a 7";2 = 40 segundos. No entanto, 
os desenvolvedores usaram as medidas de desempenho de trabalho e duração para concluir que a versão otimizada, 
que era mais rápida com 32 processadores, na verdade seria mais lenta que a versão original com 512 processadores. 
O resultado é que eles abandonaram essa “otimização”. 

Apresentamos a seguir a análise que eles fizeram. A versão original do programa tinha trabalho T, = 2048 
segundos e duração 7» = 1 segundo. Se tratarmos a desigualdade (27.4) como uma equação, T, = T/P+To,e a 
usarmos como uma aproximação para o tempo de execução com P processadores, veremos que, de fato, T,, = 
2048/32 + 1 = 65. Com a otimização, o trabalho tornou-se 7”, = 1024 segundos e a duração tornou-se T'o = 8 
segundos. Utilizando novamente nossa aproximação, obtemos T”,, = 1024/32 + 8 = 40. 

Todavia, as velocidades relativas das duas versões mudam quando calculamos os tempos de execução com 512 
processadores. Em particular, temos T,,, = 2048/512 + 1 = 5 segundos e T",,, = 1024/512 + 8 = 10 segundos. Então, 
a otimização que acelerou o programa com 32 processadores fária com que o programa ficasse duas vezes mais lento 
com 512 processadores! A duração 8 da versão otimizada, que não era o termo dominante no tempo de execução com 
32 processadores, tornou-se o termo dominante com 512 processadores, anulando a vantagem de utilizar mais 
processadores. 

A moral da história é que trabalho e duração podem nos dar um modo melhor de extrapolar desempenho que 
tempos de execução medidos. 


Exercícios 


27.1-1. Suponha que geramos P-Frs(n — 2) na linha 4 de P-Fis, em vez de chamá-la como é feito no código. Qual é o 
impacto no trabalho, na duração e no paralelismo assintóticos? 


27.1-2 Desenhe o gad de computação que resulta de executar P-Fis(5). Considerando que cada fibra na computação 
demora tempo unitário, quais são o trabalho, a duração e o paralelismo da computação? Mostre como 
escalonar o gad em três processadores utilizando escalonamento guloso rotulando cada filamento com a etapa 
de tempo na qual é executado. 


27.1-3 Prove que um escalonador guloso consegue o seguinte limite de tempo, que é ligeiramente mais forte que o 
limite provado no Teorema 27.1: 
T-T 
T,<I e 47T. (27.5) 
P ii 
27.1-4 Construa um gad de computação para o qual uma execução de um escalonador guloso pode demorar quase 
duas vezes o tempo de uma outra execução de um escalonador guloso com o mesmo número de 
processadores. Descreva como ocorreriam as duas execuções. 


27.1-5 A professora Karan mede seu algoritmo multithread determinístico com 4, 10 e 64 processadores de um 
computador paralelo ideal utilizando um escalonador guloso. Diz ela que as três execuções produziram 7, = 
80 segundos, T,, = 42 segundos e T,, = 10 segundos. Demonstre que a professora está mentindo ou é 
incompetente. (Sugestão: Use a lei do trabalho (27.2), a lei da duração (27.3) e a desigualdade (27.5) do 
Exercício 27.1-3.) 


27.1-6 Dê um algoritmo multithread para multiplicar uma matriz n x n por um n-vetor que consegue paralelismo (n,/1g 
n), mantendo, ao mesmo tempo, trabalho (n,). 


27.1-7 Considere o seguinte pseudocódigo multithread para transpor uma matriz n x n 4 no lugar: 


P-TRANSPOSE(A) 

1n = Ainhas 

2 parallel for; = 2 ton 

É parallel fori— 1 toj — 1 
4 troque a, por a, 


Analise o trabalho, a duração e o paralelismo desse algoritmo. 


27.1-8 Suponha que substituímos o laço parallel for na linha 3 de P-Transrosr (veja o Exercício 27.1-7) por um laço 
for comum. Analise o trabalho, a duração e o paralelismo do algoritmo resultante. 


27.1-9 Para quantos processadores as duas versões dos programas de jogo de xadrez são executadas com a mesma 
rapidez, considerando que 7; = T/P + To? 


27.2 MbUurriPLICAÇÃO MULTITHREAD DE MATRIZES 


Nesta seção, examinamos como aplicar multithread a uma multiplicação de matrizes, um problema cujo tempo de 
execução serial estudamos na Seção 4.2. Examinaremos algoritmos multithread baseados no laço-padrão triplamente 
aninhado, bem como em algoritmos de divisão e conquista. 


Multiplicação multithread de matrizes 


O primeiro algoritmo que estudamos é o algoritmo direto baseado na paralelização dos laços no procedimento 
Square-MarrIx-MuLnPLy na página 75: 


P-SquarE-MATRIX-MULTIPLY(A,B) 
1 n = A.rows 
seja C uma nova matriz n x n 
parallel fori=1 ton 
parallel forj= 1 ton 
c;=0 
fork=1 ton 


C=L,; +ap” b, 


ONA EGO N 


return C 


Para analisar esse algoritmo, observe que, como a serialização do algoritmo é exatamente Square-Marrix-MuLTPLY, 
o trabalho é, portanto, simplesmente T,(n) = (n,), igual ao tempo de execução de Square-Marrix-MuLnrLv. A duração é 
To(n) = (n), porque segue um caminho que desce pela árvore de recursão para o laço parallel for que começa na linha 
3, depois desce pela árvore de recursão para o laço parallel for que começa na linha 4 e executa todas as n iterações 
do laço for comum, que começa na linha 6, resultando em duração total de (lg n) + (lg n) + (n) = (n). Assim, o 
paralelismo é (n,)/(n) = (n,). O Exercício 27.2-3 pede que se paralelize o laço interno para obter um paralelismo de 
(n,/lg n), o que não se pode fazer diretamente utilizando parallel for porque criaria corridas. 


Algoritmo multithread de divisão e conquista para multiplicação de matrizes 


Como aprendemos na Seção 4.2, podemos multiplicar matrizes n X n serialmente no tempo (nm, 7) = O(n,,81) 
utilizando a estratégia de divisão e conquista de Strassen, que nos motiva a considerar a aplicação de multithread a tal 
algoritmo. Começamos, como fizemos na Seção 4.2, com a aplicação de multithread a um algoritmo de divisão e 
conquista mais simples. 

Lembre-se de que vimos, na Seção 4.2, que o procedimento Square-Marrix-MuLnPLY-Recursive, que multiplica duas 
matrizes n x n 4 e B para produzir a matriz n x n C, recorre ao particionamento de cada uma das três matrizes em 
quatro submatrizes n/2 x n/2: 


A, A, 
A, Ay 


Então, podemos escrever o produto de matrizes como 


C, C, a A, A B, B, 
C, c A, A, B, B, 
AB AB. AB AB, 
E LE UA na 2 21 12 22 . (27.6) 
AB, AB, AB, AB, 


Assim, para multiplicar duas matrizes n x n, efetuamos oito multiplicações de matrizes 

n/2xn/2 e uma adição de matrizes n x n. O pseudocódigo apresentado a seguir implementa essa estratégia de 
divisão e conquista utilizando paralelismo aninhado. Diferentemente do procedimento Square-MarrIx-MuLTIPLY-RECURSIVE 
no qual é baseado, P-Marrix-MuLnrLy-Recursi- ve adota a matriz de saída como parâmetro para evitar alocar matrizes 
desnecessariamente. 


P-MarrIx-MULTIPLY-RECURSIVE(C, A, B) 
n = Ainhas 
ifn == 

Cn Aydy 
else seja T uma nova matriz n x n 

particione 4,B, Ce Tem submatrizes n/2 x n/2 

Ay Ay Ao» B, By Bo By» C, EC Cop 
Ty To» Ty» 15,» respectivamente 

6 spawn P-MarRrIX-MULTIPLY-RECURSIVE(C A ,,.B,,) 
spawn P-MaTRrIX-MULTIPLY-RECURSIVE(C A ,,,B 
spawn P-MarRrIX-MULTIPLY-RECURSIVE(C, ,À 
spawn P-MaTRIXx-MULTIPLY-RECURSIVE(C, ,,A 
spawn P-Marrix-MULTIPLY-RECURSIVE(T, A. .B,,) 
spawn P-MATRIX-MULTIPLY-RECU RsIvVE(T,,.A,,,B 
spawn P-Marrix-MULTIPLY-RECURSIVE(T, ,A,.,B 
P-MarRIX-MULTIPLY-RECURSIVE(T,, A,,.B,,) 
14 sync 
15 parallelfori=1 ton 
16 parallel for j= 1 ton 
17 Cj=C;+Ht,; 


QRO Nm 


) 
Bh) 
B,,) 


222" "2 


22” 


A linha 3 trata do caso-base, onde estamos multiplicando matrizes 1 x 1. Tratamos o caso recursivo nas linhas 4— 
17. Alocamos uma matriz temporária T na linha 4, e a linha 5 particiona cada uma das matrizes 4, B, Ce Tem 
submatrizes n/2 x n/2. (Como ocorre com Square-Marrix-MuLnPLY-Recursive na Seção 4.2, atenuamos a questão de 
menor importância, que é como usar cálculos de índices para representar seções de submatriz de uma matriz.) A 
chamada recursiva na linha 6 define a submatriz €,, como o produto de submatrizes 4 ,,B,,, de modo que C,, é igual ao 
primeiro dos dois termos que formam sua soma na equação (27.6). De modo semelhante, as linhas 7-9 definem C ,», 
C,, e €,, como o primeiro dos dois termos que são iguais às suas somas na equação (27.6). A linha 10 define a 
submatriz T,, como o produto de submatrizes 

A ,»B,,, de modo que T,, é igual ao segundo dos dois termos que formam a soma de €,,. As linhas 11-13 definem 
T,»» 15, é Ty, como o segundo dos dois termos que formam a soma de C,,, C,, e C,,, respectivamente. As primeiras 
sete chamadas recursivas são geradas, e a última é executada na fibra principal. A declaração sync na linha 14 garante 
que todos os subprodutos de matrizes nas linhas 6-13 foram calculados, depois disso, acrescentamos os produtos de 7 
em C utilizando os laços parallel for duplamente aninhados nas linhas 15-17. 

Primeiro analisamos o trabalho M (n) do procedimento P-Marrix-MunrLy-Recursive, ecoando a análise do tempo de 
execução serial de seu progenitor Square-Marrix-MuLnrLy-Recursive. No caso recursivo, particionamos no tempo (1), 
executamos oito multiplicações recursivas de matrizes n/2 x n/2, e encerramos com o trabalho (n,) resultante da 
soma de duas matrizes n x n. Assim, a recorrência para o trabalho M (n) é 


M(n) = 8M(n/2) + O(1º) 
- mn) 


pelo caso 1 do teorema mestre. Em outras palavras, o trabalho de nosso algoritmo multithread é assintoticamente o 
mesmo que o tempo de execução do procedimento Square-Marrix-MuLmrLy na Seção 4.2, com seus laços triplamente 
aninhados. 

Para determinar a duração Mow(n) de P-Marrix-MuLrrry-Recursive, primeiro observamos que a duração para 
particionamento é (1), que é dominado pela duração (lg n) do laço parallel for duplamente aninhado nas linhas 15-17. 
Como todas as oito chamadas recursivas paralelas são executadas em matrizes do mesmo tamanho, a duração máxima 
para qualquer chamada recursiva é exatamente a duração de qualquer uma. Por consequência, a recorrência para a 
duração M (n) de P-Marrix-MunrLy-RECURSIvE É 


MA) =M «n/2) + O(Ig n). (27.7) 


Essa recorrência não se enquadra em nenhum dos casos do teorema mestre, mas obedece à condição do Exercício 
4.6-2. Portanto, pelo Exercício 4.6-2, a solução para a recorrência (27.7) é Mn) = (lg n). 
Agora, que conhecemos o trabalho e a duração de P-Marrix-MuLmrLy-Recursive, podemos calcular seu paralelismo 


como M1(n)/M(n) = (113 (lg n), que é muito alto. 


Aplicar multithread ao método de Strassen 


Para aplicar multithread ao algoritmo de Strassen, seguimos as mesmas linhas gerais da página 79, só que utilizando 
paralelismo aninhado: 


1. Divida as matrizes de entrada 4 e B e a matriz de saída C em submatrizes n/2 x n/2, como na equação (27.6). 
Essa etapa demora trabalho (1) e duração por cálculo de índice. 

2. Crie 10 matrizes Si, S», ... , S1o, cada uma delas sendo n/2 x n/2 e a soma ou diferença das duas matrizes criadas 
na etapa 1. Podemos criar todas as 10 matrizes com trabalho (n,) e duração (lg n) utilizando laços parallel for 
duplamente aninhados. 

3. Utilizando as submatrizes criadas na etapa 1 e as 10 matrizes criadas na etapa 2, gere recursivamente a 
computação dos sete produtos de matrizes n/2 x n/2 P,P», ..., Ps. 

4. Calcule as submatrizes desejadas Cn, Ci», Cn, C» da matriz de resultados €C somando e subtrando várias 
combinações das P;matrizes utilizando, mais uma vez, laços parallel for duplamente aninhados. Podemos calcular 
todas as quatro submatrizes com trabalho (n>) e duração (lg n). 


Para analisar esse algoritmo, primeiro observamos que a serialização é igual à do algoritmo serial original, e o 
trabalho é exatamente o tempo de execução da serialização, isto é, (mn, 7). Quanto a P-Matrix-MuLTPLY-RECURSIVE, 
podemos criar uma recorrência para a duração. Nesse caso, sete chamadas recursivas são executadas em paralelo, 
porém, visto que todas elas funcionam em matrizes do mesmo tamanho, obtemos a mesma recorrência (27.7) que 
obtivemos para P-Marrix-MuznrLy-Recursive, que tem solução (lg? n). Assim, o paralelismo do método >nultithread de 
Strassen é (11, 7/12 n), que é alto, embora ligeiramente menor que o paralelismo de P-M arrix-MuLmPLy-Recursive. 


Exercícios 


27.2-1 Desenhe o gad de computação para calcular P-Square-Marrix-MuLnrLy de matrizes 2x2, identificando como os 
vértices em seu diagrama correspondem a fibras na execução do algoritmo. Use a seguinte convenção: arestas 
geradas e arestas de chamada apontam para baixo, arestas de continuação apontam para a direita na 
horizontal e arestas de retorno apontam para cima. Supondo que cada fibra demora tempo unitário, analise o 
trabalho, a duração e o paralelismo dessa computação. 


27.2-2 Repita o Exercício 27.2-1 para P-Marrix-MuLnPLy-RECURSIVE. 


27.2-3 Dê pseudocódigo para um algoritmo multithread que multiplica duas matrizes n x n com trabalho (n,) mas 
duração de somente (lg n). Analise seu algoritmo. 


27.2-4 Dê pseudocódigo para um algoritmo multithread eficiente que multiplica uma matriz p x q por uma matriz q x 
r. Seu algoritmo deve ter alto grau de paralelismo, mesmo se qualquer das p, q e r for 1. Analise seu 
algoritmo. 


27.2-5 Dê pseudocódigo para um algoritmo multithread eficiente que transponha uma matriz n x n no local utilizando 
divisão e conquista para dividir a matriz recursivamente em quatro submatrizes n/2 x n/2. Analise seu 
algoritmo. 


27.2-6 Dê pseudocódigo para uma implementação multithread eficiente do algoritmo de Floyd-Warshall (veja a 
Seção 25.2), que calcula caminhos mínimos entre todos os pares de vértices em um grafo de arestas 
ponderadas. Analise seu algoritmo. 


27.3 (ORDENAÇÃO POR INTERCALAÇÃO MULTITHREAD 


Primeiro vimos ordenação por intercalação serial na Seção 2.3.1, e na Seção 2.3.2 analisamos seu tempo de 
execução e mostramos que é (n lg n). Como a ordenação por intercalação já usa o paradigma de divisão e conquista, 
parece ser uma candidata espetacular para multithread por paralelismo aninhado. É fácil modificar o pseudocódigo para 
gerar a primeira chamada recursiva: 


MERGE-SORT (A, p, 1) 


1 ifp<r 

2 q =p + 1)/2] 

o spawn MERGE-SORT (4, p, q) 
4 MErcE-SORT (A, q + 1,7) 

5 sync 

6 MERGE(A, p, q, 1) 


Como sua contraparte serial, Meror-Sorr” ordena o subarranjo 4[p . . 17]. Após a conclusão das duas sub-rotinas 
recursivas nas linhas 3 e 4, garantida pela declaração sync na linha 5, Merce-Sorr”chama o mesmo procedimento Mera 
chamado na página 31. 

Vamos analisar Mercr-Sorr”. Para tal, primeiro precisamos analisar Meror. Lembre-se de que seu tempo de 
execução serial para intercalar n elementos é (n). Como Mercs é serial, seu trabalho, bem como sua duração, são (n). 
Assim, a seguinte recorrência caracteriza o trabalho MS" (n) de Merce-Sorr "para n elementos: 


MS:(n) 2MS:(n/2) + O(n) 


= O(nlgn), 


que é igual ao tempo de execução serial de ordenação por intercalação. Visto que as duas chamadas recursivas de 
MercE-Sorr” podem ser executadas em paralelo, a duração MS é dada pela recorrência 


MS.(n) = MS'(n/2) + O(n) 
- On). 


Assim, o paralelismo de Mercr-Sorr” chega a MS" (n)/MS'c(n) = (lg n), que não é um grau impressionante de 
paralelismo. Para ordenar 10 milhões de elementos, por exemplo, ele poderia alcançar fator de aceleração linear com 
um pequeno número de processadores, mas a escala não aumentaria efetivamente com centenas de processadores. 

É provável que você já tenha uma ideia de onde se encontra o gargalo do paralelismo nessa ordenação por 
intercalação multithread: o procedimento serial Meror. Embora de início a intercalação pareça ser inerentemente serial, 
na verdade podemos criar uma versão multithread dela utilizando paralelismo aninhado. 

Nossa estratégia de divisão e conquista para intercalação multithread, que é ilustrada na Figura 27.6, funciona em 
subarranjos de um arranjo T. Suponha que estejamos intercalando os dois subarranjos ordenados T [p, ..r,] de 
comprimento n,=r,—-p,+ le Tlp,..r,] de comprimento n, = r, — p, + 1 em um outro subarranjo A[p, . . r,], de 
comprimento n; =7,;— p;+ 1=n, + n,. Sem perda de generalidade, adotamos a hipótese simplificadora n, > n,. 

Em primeiro lugar determinamos o elemento do meio x = T [q,] do subarranjo T [p, ..r,], onde q, = (p, + r)/2. 
Como o subarranjo está ordenado, x é uma mediana de T [p, .. r,]: nenhum elemento em T [p, .. q, — 1] é maior que 


x e nenhum elemento em T [g, + 1...7,] é menor que x. Então, usamos busca binária para encontrar o índice q, no 
subarranjo T [p, . . 7,] de modo que o subarranjo ainda estaria ordenado se inserissemos x entre T [q, — 1] e T [q]. 


intercalar copiar intercalar 
D; q; é 


Figura 27.6 A ideia que fundamenta a intercalação multithread de dois subarranjos ordenados Tp,..r, eTp,..r, parao subarranjo 
Ap» ..r,. Fazendo x=T'q, amediana de Tp,..r, eg,0 lugaremT'p,..r, talquex cairia entre Tg, - le Tq,, todo elemento nos 
subarranjos Tp,..qg;-1eTp,..q,- 1 (sombreado emtommais claro) é menor ou iguala x, e todo elemento nos subarranjos Tg, +1.. 
r,reTqg,+1..r, (sombreado emtommais escuro) é no mínimo x. Para intercalar, calculamos o índice q; do localem 4p, ..r; ao qualx 
pertence, copiamos x para 4q, , e então intercalamos recursivamente Tp,..g,-1comTp,..q,-lemAp,..g;-leTqg,+1..r, com” 
q». .r, emAg,;+1..n. 


Em seguida, intercalamos os subarranjos originais T'[p,..rJeT[p,..r,] emAlp,..r,] da seguinte maneira: 


Defina q; =p; + (9, — Pi) + (q, — Do). 

Copie x para Ag.. 

Intercale recursivamente Tp: .. q:-1 com Tp». . q2-1 e coloque o resultado no subarranjo 4ps.. q3- 1. 
Ordene recursivamente Tg + 1..m comT'g».. re coloque o resultado no subarranjo Alg, + 1..1,]. 


aa 


Quando calculamos q, a quantidade q,—p, é o número de elementos no subarranjo T [p, .. q, — 1], e a quantidade 
q,— p, é o número de elementos no subarranjo T [p, .. q, — 1]. Assim, a soma das duas é o número de elementos que 
acabam ficando antes de x no subarranjo A[p;.. 14]. 

O caso-base ocorre quando n, = n, = O e não temos nenhum trabalho a fazer para intercalar os dois subarranjos 
vazios. Visto que supomos que o subarranjo T [p, ..1,] é no mínimo tão comprido quanto T' [p, .. nr], isto é,n, > n,, 
para verificar se é o caso-base basta verificar se n, = 0. Devemos também garantir que a recursão trate adequadamente 
do caso em que um dos dois subarranjos é vazio, o qual, como supomos que n, > n,, deve ser o subarranjo T [p, .. 
e! 

Agora, vamos passar essas ideias para pseudocódigo. Começamos com a busca binária, que expressamos 
serialmente. O procedimento Binary-Searcu(x, 7, p, 7) toma uma chave x e um subarranjo T [p .. 7] e retorna um dos 
seguintes: 


* SeTp..révazio (r< p), então ele devolve o índice p. 
* Sex<Tpe, por consequência, menor ou igual a todos os elementos de Tp .. r, então ele devolve o índice p. 
* Sex>Tp, então ele devolve o maior índice gna faxap <g<r+lItalqueTg-1I<x. 


Este é o pseudocódigo: 


BiNARY-SEARCH(X, T',p,1) 

low = p 

high = max(p,r + 1) 

while low < high 
mid =| (low + high) /2. 
ifx<T[mid) 

high = mid 

else low = mid + 1 

8 return high 


JOG ERON 


A chamada Binary-Searcu(X, 7, p, 7) demora tempo serial (lg n) no pior caso, onde n = 7 — p = 1 é o tamanho do 
subarranjo no qual ela é executada (veja o Exercício 2.3-5). Visto que Binary-SearcH é um procedimento serial, o 
trabalho e a duração de seu pior caso são (lg n1). 

Agora estamos preparados para escrever pseudocódigo para o procedimento de intercalação multithread em si. 
Como o procedimento Merc: na página 31, o procedimento P-Mero: supõe que os dois subarranjos que devem ser 
intercalados encontram-se no mesmo arranjo. Entretanto, diferentemente de Mercer, P-Mercr não supõe que os dois 
subarranjos que devem ser intercalados são adjacentes dentro do arranjo (isto é, P-Mera: não requer que p, =, + 1). 
Uma outra diferença entre Meror e P-Mercr é que P-Meror adota como argumento um subarranjo de saída 4 no qual 
os valores intercalados devem ser armazenados. Uma chamada P-Merce(T, p, rp DP» 1 4, p;) intercala os 
subarranjos ordenados T [p,..rJe T[p,..r,] no subarranjo Alp,..r;, onder;=p;+(r,-p,+D+(r,-—-p,+ D)- 
l=p,;+(r,-p)+(r,—p,) + 1 e não é dado como uma entrada. 


P-MercE(T, P,.1,P,»1,, A, P,) 


1 n=r,—-p+1 

2 Ng To = fi 

3 ifn, <n, // assegure que nl > n2 
4 troque p, com p, 

5 troque r, com r, 

6 troque n, com n, 

7 ifn, ==0 /lambos vazios? 
8 return 

9 elseg, =p, + r)/21 

10 q, = BINARY-SEARCH(T [9], T,p,.r,) 

n =P +(m—p)+(g—p) 

12 Algj=T lg|] 

13 spawn P-MercE(T, p,,q, — 1,P,.4,— 1,4,p,) 

14 P-MerceE(T,q, + 1,1,,0,.1, 4,9,+4+1) 

15 sync 


O procedimento P-Merc: funciona da seguinte maneira: as linhas 1-2 calculam os comprimentos n, e n, dos 
subarranjos T [p,..rJe T[p,..r,], respectivamente. As linhas 3-6 forçam a condição n, > n,. A linha 7 testa se é o 
caso-base, onde o subarranjo T' [p,..r,] é vazio (e, por consequência, também T' [p, . . r,] é vazio), caso em que 
simplesmente retornamos. As linhas 9-15 implementam a estratégia de divisão e conquista. A linha 9 calcula o ponto do 
meio de T[p,..r,]ea linha 10 encontra o ponto q, em T [p,..r,] tal que todos os elementos em T[p, .. q, — 1] são 
menores que 7 [q,] (que corresponde a x) e todos os elementos em T [g, . . r,] são no mínimo tão grandes quanto T 
[9,]. A linha 11 calcula o índice q, do elemento que divide o subarranjo de saída A[p, ..r;JemAlp,..q;— 1] e Alg; + 
1..1r,], e então a linha 12 copia T [g,] diretamente para Alg.). 


Então, executamos recursão utilizando paralelismo aninhado. A linha 13 gera o primeiro subproblema, enquanto a 
linha 14 chama o segundo subproblema em paralelo. A declaração sync na linha 15 garante que os subproblemas estão 
concluídos antes de o procedimento retornar. (Visto que todo procedimento implicitamente executa sync antes de 
retornar, poderíamos ter omitido a declaração sync na linha 15, mas incluí-la é boa prática de codificação.) Há certa 
esperteza na codificação para garantir que, quando o subarranjo T [p, . . 1,] é vazio, o código funciona corretamente. O 
modo como funciona é que, em cada chamada recursiva, um elemento mediana de T [p,. . r,] é colocado no 
subarranjo de saída até que o próprio T'[p,.. r,] finamente se torna vazio, o que aciona o caso-base. 


Análise de intercalação multithread 


Primeiro deduzimos uma recorrência para a duração PM<(n) de P-Merce, onde os dois subarranjos contêm um 
total de n = n,+n, elementos. Como a geração na linha 13 e a chamada na linha 14 funcionam logicamente em paralelo, 
basta examinar somente a chamada que custa mais. A chave é entender que, no pior caso, o número de elementos em 
qualquer das chamadas recursivas pode ser no máximo 3n/4, o que verificamos da seguinte maneira: como as linhas 3-6 
garantem que n, < n,, decorre que n, = 2n,/2 < (n, + n;)/2 = n/2. No pior caso, uma das duas chamadas recursivas 
intercala n,/2 elementos de T' [p, . . r,] com todos os n, elementos de T [p,. . r,] e, por consequência, o número de 
elementos envolvidos na chamada é 


ln,/2]+n, < n/24n,/24n,/2 
(n, + n)/2+4+n,/2 
< n2+n/4 

3n/4. 


Somando também o custo (lg n) da chamada a Brnary-Searcu na linha 10, obtemos a seguinte recorrência para a 
duração do pior caso: 


PM ,Xn) = PM (3n/4) + O(lg n). (27.8) 


(Para o caso-base, a duração é (1), visto que as linhas 1-8 são executadas em tempo constante.) Essa recorrência 
não se enquadra em nenhum dos casos do teorema mestre, mas cumpre a condição do Exercício 4.6-2. Portanto, a 
solução para a recorrência (27.8) é PM (n) = (lg n). 

Agora, analisamos o trabalho PM (n) de P-Mera: para n elementos, que é (n). Visto que cada um dos n elementos 
deve ser copiado do arranjo T para o arranjo 4, temos PM(n) = (n). Assim, resta apenas mostrar que PM (n) = O(n). 

Primeiro deduziremos uma recorrência para o trabalho do pior caso. A busca binária na linha 10 custa (lg n) no 
pior caso, que domina o outro trabalho fora das chamadas recursivas. Para as chamadas recursivas, observe que, se 
bem que as chamadas nas linhas 13 e 14 poderiam intercalar quantidades diferentes de elementos, as duas chamadas 
recursivas juntas intercalam no máximo n elementos (na verdade n — 1 elementos, visto que T [g,] não participa de 
qualquer das duas chamadas recursivas). Além disso, como vimos na análise da duração, uma chamada recursiva 
funciona para no máximo 31n/4 elementos. Portanto, obtemos a recorrência 


PM (n) = PM (an) + PM((1 — o)n) + O(lg n), (27.9) 


onde a: encontra-se na faixa 1/4 < a < 3/4 e entendemos que o valor propriamente dito de a pode variar para cada 
nível de recursão. 

Provamos que a recorrência (27.9Jtem solução PM, = O(n) por meio do método de substituição. Suponha que 
PM(n)<cn-—c, lgn para algumas constantes positivas c, e c,. Substituindo, temos 


PM(n) < (can-c lg(an) + (c(1 — on — c Ig((1 — o)n)) + O(lg n) 
= c(a+(1-co)n — cilg(an) + Ig((1 — a)n)) + O(lg n) 
cn-— cilga+lgn+ Ig — a) + Ig n) + O(lg n) 
= cn-clgn-— (c(lgn+ lg(a(l — a))) — O(lg n)) 
< tn-6Ign, 


visto que podemos escolher c, grande o suficiente para que c,(lg n + le(a(l — a))) domine o termo (lg n). Ainda mais, 
podemos escolher c, grande o suficiente para satisfazer as condições-base da recorrência. Visto que o trabalho PM (n) 
de P-Mera: é (n) e O(n), temos PM (n) = (n). 

O paralelismo de P-Meroe é PM (n)/PMc(n) = (n/lg; n). 


Ordenação por intercalação multithread 


Agora, que temos um procedimento multithread de intercalação minuciosamente paralelizado, podemos incorporá- 
lo a uma ordenação por intercalação multithread. Essa versão da ordenação por intercalação é semelhante ao 
procedimento Merg-Sorr, que já vimos; porém, diferentemente de Meror-Sorr', adota como argumento um subarranjo 
de saída B, que conterá o resultado ordenado. Em particular, a chamada P-Mercr-Sorr(4, p, 7, B, s) ordena os 
elementos em 4[p . . 7] e os armazena em Bjs ..s+r—p]. 


P-MErcE-SORT(A, p, r,B,s) 
1 n=r-p+1 


a ifn==1 

3 BIs] = Alp] 

4 else seja T[1..n] um novo arranjo 

5 q=Lp+1)/2] 

6 q =9=p+l 

7 spawn P-MERGE-SORT(A, p,q, 1,1) 
8 P-Mercr-SorT(A,q + 1,r,T,q +1) 
E sync 

10 P-Merce(T,1,9',q + 1,n,B,s) 


Após a linha 1 calcular o número n de elementos no subarranjo de entrada A[p .. r], as linhas 2-3 tratam o caso- 
base quando o arranjo tem somente um elemento. As linhas 4-6 se preparam para a geração recursiva na linha 7 e 
chamam na linha 8, que funciona em paralelo. Em particular, a linha 4 aloca um arranjo temporário T com n elementos 
para armazenar os resultados da ordenação por intercalação recursiva. A Inha 5 calcula o índice q de 4[p .. 7] para 
dividir os elementos nos dois subarranjos 4[p .. g)e Alg + 1... 7] que serão ordenados recursivamente, e a linha 6 
continua e passa a calcular o número q” de elementos no primeiro subarranjo Alp . . q], que a linha 8 usa para 
determinar o índice inicial em T referente ao lugar onde será armazenado o resultado ordenado de Alg + 1..7]. Nesse 
ponto, a geração e a chamada recursiva são executadas, seguidas pela sync na linha 9, que obriga o procedimento a 
esperar até que o procedimento gerado termine. Finalmente, a linha 10 chama P-Mero: para intercalar os subarranjos 
ordenados, agora em T[1 ..g]e TIg'+1...1n], no subarranjo de saída B[s ..s+r— p]. 


Análise de ordenação por intercalação multithread 


Começamos analisando o trabalho PMS (n) de P-Merc:-Sorr, o que é consideravelmente mais fácil do que analisar 
o trabalho de P-Mercr. De fato, o trabalho é dado pela recorrência 


PMS (n) = 2PMS(n/2) + PM (n) 
— 2 PMS (n/2) + O(n). 


Essa recorrência é igual à recorrência (4.4) para MercE-Sorr comum dada na Seção 2.3.1 e tem solução PMS (n) 
= (n lg n) pelo caso 2 do teorema mestre. 

Agora, deduzimos e analisamos uma recorrência para a duração do pior caso PMS(n). Como as duas chamadas 
recursivas a P-Merar-Sorr nas linhas 7 e 8 funcionam logicamente em paralelo, podemos ignorar uma delas, obtendo a 
recorrência 


PMS (n) = PMS (n/2) + PM Xn) 
PMS (n/2) + O(lg? n). (27.10) 


Como ocorre com a recorrência (27.8), o teorema mestre não se aplica à recorrência (27.10), mas o Exercício 
4.6-2 se aplica. A solução é PMS (n) = (lg: n) e, assim, a duração de P-Merce-Sorr é (lg3 11). 

A ordenação paralela dá a P-Mercr-Sorr uma vantagem significativa de paralelismo em relação a Mergr-Sorr”. 
Lembre-se de que o paralelismo de Mercr-Sorr”, que chama o procedimento serial Mercer, é somente (lg nn). Para P- 
MercE-Sorr, O paralelismo é 


PMS (n)/PMS (n) 


] 


O(n Ig n)/0(lg” n) 
= O(n/lg”n), 


que é muito melhor, tanto na teoria quanto na prática. Uma boa implementação na prática sacrificaria algum paralelismo 
por adensar o caso-base de modo a reduzir as constantes ocultas pela notação assintótica. O modo direto de adensar o 
caso-base é passar para um tipo de ordenação serial, talvez quicksort, quando o tamanho do arranjo é suficientemente 
pequeno. 


Exercícios 
27.3-1. Explique como adensar o caso-base de P-Merc. 


27.3-2 Em vez de encontrar o elemento mediana no subarranjo maior, como fãz P-Meror, considere uma variante que 
encontra um elemento mediana de todos os elementos nos dois subarranjos ordenados utilizando o resultado 
do Exercício 9.3-8. Dê pseudocódigo para um procedimento eficiente de intercalação multithread que usa 
esse procedimento de encontrar o elemento mediana. Analise seu algoritmo. 


27.3-3 Dê um algoritmo multithread eficiente para particionar um arranjo em torno de um pivô, como faz o 
procedimento Parrrmon na página 171. Você não precisa particionar o arranjo no lugar. Seu algoritmo deve ser 
o mais paralelo possível. Analise seu algoritmo. 


(Sugestão: Talvez você precise de um arranjo auxiliar e também de fazer mais de uma passagem pelos 
elementos de entrada.) 


27.3-4 Dê uma versão multithread de Recursive-FFT na Seção 30.2. Sua implementação deve ser a mais paralela 
possível. Analise seu algoritmo. 


27.3-5 * Dê uma versão multithread de Ranvomizen-SeLecr na Seção 9.2. Sua implementação deve ser a mais paralela 
possível. Analise seu algoritmo. (Sugestão: Use o algoritmo de particionamento do Exercício 27.3-3.) 


27.3-6 * Mostre como aplicar multithread a Serecrda Seção 9.3. Sua implementação deve ser a mais paralela 
possível. Analise seu algoritmo. 


Problemas 


27-1. Implementar laços paralelos utilizando paralelismo aninhado 


Considere o seguinte algoritmo multithread para efetuar adição aos pares em arranjos de n elementos A[1... 
n]e B[1..n], armazenando as somas em C[1..1n]. 


SuM-ARRAYS(A, B,C) 
1 parallel for | = 1 to A.comprimento 
2 Cl] = Ali] + Bl 
a. Reescreva o laço paralelo em Sum-Arrays utilizando paralelismo aninhado (spawn e sync) à maneira de 


Mar-Vec-Marn-Loor. Analise o paralelismo de sua implementação. 


Considere a seguinte implementação alternativa do laço paralelo, que contém um valor granularidade a ser 
especificado: 


SuM-ARRAYS (4, B,C) 


1 n = A.comprimento 

2 granularidade =? [| a ser determinado 

3 r=[n/granularidade | 

1 fork=0Otor-—1 

5 spawn ADD-SUBARRAY(A, B,C,k - granularidade + 1, 
min((k + 1) - granularidade, n)) 

6 sync 

ADD-SUBARRAY(A, B, C, 1,1) 

1 fork = itoj 

2 C[k] = A[k] + B[k] 


b. Suponha que definimos granularidade = 1. Qual é o paralelismo dessa implementação? 


c. Dê a fórmula para a duração de Sum-Arrays” em termos de n e granularidade. Deduza o melhor valor 
para granularidade para maximizar paralelismo. 


27-2 Economizar espaço temporário em multiplicação de matrizes 


O procedimento P-Marrix-MuLnrLy-Recursive apresenta a desvantagem de ter de alocar uma matriz temporária 
T de tamanho n x n, o que pode acarretar efeitos adversos nas constantes ocultas pela notação . Todavia, o 
procedimento P-Marrix-MuLrrLy-Recursive realmente tem alto paralelismo. Por exemplo, ignorando as 
constantes na notação , o paralelismo para multiplicar matrizes 1000 x 1000 chega a aproximadamente 
10003/102 = 107, visto que lg 1000 = 10. A maioria dos computadores paralelos tem muito menos que 10 
milhões de processadores. 


a. Descreva um algoritmo multithread recursivo que elimine a necessidade da matriz temporária T ao custo 
de aumentar a duração para (n). (Sugestão: Calcule C = € + AB seguindo a estratégia geral de P-Marrix- 


MuznrLY-RECURsIvE, mas inicialize C em paralelo e insira uma sync em uma localização criteriosamente 
escolhida.) 


b. Dê eresolva recorrências para o trabalho e duração de sua implementação. 


c. Analise o paralelismo de sua implementação. Ignorando as constantes na notação , estime o paralelismo 
em matrizes 1000 x 1000. Compare com o paralelismo de P-Marrix-MuLnPLY-RECURSIVE. 


27-3 Algoritmos multithread com matrizes 


a. Paralelize o procedimento LU-Decomposrron na Seção 28.1 dando pseudocódigo para uma versão 
multithread desse algoritmo. Sua implementação deve ser a mais paralela possível; analise seu trabalho, 
duração e paralelismo. 


b. Faça o mesmo para LUP-Decomposrmon. 
c. Faça o mesmo para LUP-Socve. 


d. Faça o mesmo para um algoritmo multithread baseado na equação (28.13) para inverter uma matriz 
simétrica definida positiva. 


27-4 Multithread aplicado a reduções e cálculos de prefixo 
Uma S-redução de um arranjo x[1 .. n], onde & é um operador associativo, é o valor 
y=[1] 8 x[2] 8 --- O x[n]. 
O seguinte procedimento calcula serialmente a &-redução de um subarranjo x[i .. j]. 
REDUCE(%, 1, /) 
1 y = x[t] 
ps fork=i+1toj 
3 v=y 8 ak] 
4 retum y 


a. Use paralelismo aninhado para implementar um algoritmo multithread P-Repuce, que executa a mesma 
função com trabalho (n) e duração (lg n). Analise seu algoritmo. 


Um problema relacionado é o de calcular uma computação º-prefixo, às vezes denominada €-scan, em um 
arranjo x[1 . . n], onde é novamente um operador associativo. A &-scan produz o arranjo [1 . . n] dado por 


vi] = x), 

v2] = x] gx, 

vl3] = x[1] 9 x/2] & x[3], 

vín] É x[1] 3 x/2] & x[3] O --- Q xIn], 


isto é, todos os prefixos do arranjo x “somados” utilizando o operador º. O seguinte procedimento serial Scan 
executa uma computação &-prefixo: 


SCAN(x) 
n = x.comprimento 
seja y[1 ..n] um novo arranjo 
yl1] = x[1] 
fori=2ton 

yl) = yli — 1] 8 xi] 
return y 


ON RO NMA 


Infelizmente, aplicar multithread a Scan não é direto. Por exemplo, mudar o laço for para um laço parallel for 
criaria corridas, visto que cada iteração do corpo do laço depende da iteração anterior. O seguinte 
procedimento P-Scan-1 executa a computação prefixo º em paralelo, se bem que ineficientemente: 


P-Scan-1(x) 
1 n = x.comprimento 
2 seja y[1..1n] um novo arranjo 
3 P-Scan-1-Aux(x, y, 1,n) 
4 return y 
P-ScaN-1-Aux(x, 1, 1,)) 
1 parallel for! = ito; 
2 y[!] = P-ReDuUcE(x, 1,1) 
b. Analise o trabalho, duração e paralelismo de P-Scax-1. 


Utilizando paralelismo aninhado, podemos obter uma computação º-prefixo mais eficiente: 


P-Scan-2(x) 

1 n = x.comprimento 

Z seja y[1 ..n] um novo arranjo 

3 P-Scan-2-Aux(x, y, 1,1) 

4 return y 

P-Scan-2-Aux(x, 1, 1,)) 

1 Ef ==) 

4 yli] = x[1] 

3 elsek =L(i +j)/2] 

4 spawn P-Scan-2-Aux(x,y, 1, k) 
õ P-Scan-2-Aux(x, y,k + 1,7) 
6 sync 

7 parallelforl—-k+1 to; 

8 yl] = ylk] & yll] 


c. Demonstre que P-Scan-2 é correto e analise seu trabalho, duração e paralelismo. 


Podemos melhorar P-Scan-1 € P-Scan-2 executando a computação prefixo º em duas passagens distintas pelos 
dados. Na primeira passagem, reunimos os termos para vários subarranjos contíguos de x em um arranjo 
temporário t, e na segunda passagem usamos os termos em í para calcular o resultado final y. O seguinte 
pseudocódigo implementa essa estratégia, mas certas expressões foram omitidas: 


P-Scan-3(x) 

1 n = x.comprimento 

Pá sejam yll..n]et[1..n]novos arranjos 
3 y[1] = x[1] 

4 ifn>1 

5 P-Scan-UP(x, t,2,n) 

6 P-Scan-Down(x[1], x,t,1,2,n) 
7 return y 

P-Scan-Up(x, t, 1, |) 

1 ifi==j 

2 return x[i] 

2 else 

4 k=L(i+)/2 

5 t [k] = spawn P-Scan-Up(x, t, i,k) 
6 right = P-Scan-Ur(x, t,k + 1,7) 

Fá sync 

8 retum /! preencha a lacuna 


P-Scan-Down(o, x, t, y,1,)) 


JOR NMA 


27-5 


if 1 == 
yl]=v 9 xi 
else 
k=L(i+9)/2] 
spawn P-Scan-Down( ti VA) /! preencha a lacuna 


P-Scan-Down( 
sync 


0d, k 41,7) /! preencha a lacuna 


d. Preencha as três expressões que faltam na linha 8 de P-Scan-Ur e nas linhas 5 e 6 de P-Scan-Down. 
Demonstre que, com as expressões que você deu, P-Scan-3 é correto. (Sugestão: Prove que o valor v 
passado para P-Scan-Down(v, x, t, Y, 1, j) satisfaz v = x[1] e x[2] º ... e x[i—- 1].) 


e. Analise o trabalho, a duração e o paralelismo de P-Scan-3. 
Multithread aplicado a um cálculo simples com estêncil 


A ciência da computação está repleta de algoritmos que exigem que as entradas de um arranjo sejam 
preenchidas com valores que dependem dos valores já calculados de certas entradas vizinhas, juntamente com 
outras informações que não mudam no curso da computação. O padrão de entradas vizinhas não muda 
durante a computação e é denominado estêncil. Por exemplo, a Seção 15.4 apresenta um algoritmo estêncil 
para calcular uma subsequência comum mais longa, onde o valor na entrada cli, ;] depende somente dos 
valores em c[i —1, j], cli,j —1], e cli —1,j —1], bem como dos elementos x; e y, dentro das duas sequências 
dadas como entradas. As sequências de entrada são fixas, mas o algoritmo preenche o arranjo bidimensional 


27-6 


c, de modo a calcular a entrada c[i, ;] após calcular todas as três entradas c[i-1,j], cli,j -1], e cli— 1,j — 


1. 


Nesse problema, examinamos como usar paralelismo aninhado para aplicar multithread a cálculo simples com 
estêncil em um arranjo n x n 4, no qual, dos valores em 4, o valor colocado dentro da entrada Afi, ;] 
depende somente dos valores em A[i',/], ondei'<iej'<;j(e, é claro, i'£iouj' £j). Em outras palavras, 
o valor em uma entrada depende somente dos valores em entradas que estão acima dele ou à sua esquerda, 
juntamente com a informação estática que está fora do arranjo. Além disso, supomos em todo esse problema 
que, uma vez preenchidas as entradas das quais A[i, ;] depende, podemos preencher Afi, ;] no tempo (1) 
(como no procedimento LCS-Lenorn da Seção 15.4). 


Podemos particionar o arranjo n x n 4 em quatro subarranjos 1/2 x n/2 da seguinte maneira: 


A. A 
A=| Cu Cn, (27.11) 


Observe agora que podemos preencher o subarranjo 4,, recursivamente, visto que ele não depende das 
entradas dos outros três subarranjos. Uma vez completado 4,,, podemos continuar a preencher 4,, e 4,, 
recursivamente em paralelo porque, embora ambos dependam de 4,,, não dependem um do outro. Por fim, 
podemos preencher 4,, recursivamente. 


a. Dê pseudocódigo multithread que execute esses cálculo simples com estêncil utilizando um algoritmo de 
dividir e conquistar SimpLe-Srencir baseado na decomposição (27.11) e na discussão anterior. (Não se 
preocupe com os detalhes do caso-base, que depende de cada estêncil específico.) Dê e resolva 
recorrências para o trabalho e a duração desse algoritmo em termos de n. Qual é o paralelismo? 


b. Modifique sua solução para a parte (a) para dividir um arranjo n x n em nove subarranjos n/3 x n/3, 
novamente executando recursão com o máximo de paralelismo possível. Analise esse algoritmo. Mais ou 
menos quanto paralelismo tem esse algoritmo em comparação com o algoritmo da parte (a)? 


c. Generalize suas soluções para as partes (a) e (b) da seguinte maneira: escolha um inteiro b > 2. Divida um 
arranjo n x n em b> subarranjos, cada um de tamanho n1/b x n/b, executando recursão com o máximo de 
paralelismo possível. Em termos de n e b, quais são o trabalho, a duração e o paralelismo de seu 
aleoritmo? Demonstre que, utilizando essa abordagem, o paralelismo deve ser o(n) para qualquer escolha 
de b > 2. (Sugestão: Para este último argumento, mostre que o expoente de n no paralelismo é 
estritamente menor que 1 para qualquer escolha de b > 2.) 


d. Dê pseudocódigo para um algoritmo multithread para esse cálculo simples com estêncil que consiga 
paralelismo (n/lg n). Demonstre, utilizando noções de trabalho e duração, que, na verdade, o problema 
tem paralelismo merente (n). Acontece que a natureza de divisão e conquista do nosso pseudocódigo 
multithread não nos permite conseguir esse paralelismo máximo. 


Algoritmos multithread aleatorizados 


Exatamente como ocorre com os algoritmos seriais comuns, às vezes, queremos implementar algoritmos 
multithread aleatorizados. Este problema explora como adaptar as várias medições de desempenho para tratar 
o comportamento esperado de tais algoritmos. O problema pede também que você projete e analise um 
algoritmo multithread para quicksort aleatorizada. 


a. Explique como modificar a lei do trabalho (27.2), a lei da duração (27.3) e o limite do escalonador 
guloso (27.4) para trabalhar com esperanças quando 7», Tie T. são variáveis aleatórias. 


b. Considere um algoritmo multithread aleatorizado para o qual durante 1% do tempo temos T, = 104 e 
T,0000 = 1, mas durante 99% do tempo temos T, = T,6000 = 10º. Explique por que o fator de 
aceleração do algoritmo multithread aleatorizado deve ser definido como E [7,]/ E [7,], em vez de E 
[ETA 


c. Explique por que o paralelismo de um algoritmo multithread aleatorizado deve ser definido como a 
razão E TE To. 


d. Aplique mulithread ao algoritmo Ranvomizen-Quicksorrna página 179 utilizando paralelismo aninhado. 
(Não paralelize Ranpomizen-Parrrmon.) Dê o pseudocódigo para seu algoritmo P-RanDomizeD-QuicksoRT. 


e. Analise seu algoritmo multithread para quicksort aleatorizada. (Sugestão: Revise a análise de RanbomizeD- 
SeLecrna Seção 9.2.) 


NorTas DO CAPÍTULO 


Computadores paralelos, modelos para computadores paralelos e modelos algorítmicos para programação paralela 
estão por aí há anos, sob várias formas. Edições anteriores deste livro incluíam material sobre redes de ordenação e 
sobre o modelo PRAM (Parallel Random- Access Machine — Máquina Paralela de Acesso Aleatório). O modelo de 
dados paralelos [48, 168] é um outro modelo popular de programação algorítmica que apresenta operações com 
vetores e matrizes como primitivas. 

Graham [149] e Brent [55] mostraram que existem escalonadores que alcançam os limites do Teorema 27.1. 
Blumofe e Leiserson [52] mostraram que todo escalonador guloso atinge o limite. Blelloch [47] desenvolveu um modelo 
de programação algorítmica baseado em trabalho e duração (que ele denominou “profundidade” da computação) para 
programação de dados paralelos. Blumofe e Leiserson [52] deram um algoritmo de escalonamento distribuído para 
multithread dinâmico baseado em “roubo de trabalho” aleatorizado e mostraram que ele alcança o limite E [7,] < T,//P 
+ O(To). Arora, Blumofe e Plaxton [19] e Blelloch, Gibbons e Matias [49] também apresentaram algoritmos 
provadamente bons para escalonar computações multithread dinâmicas. 

O modelo de pseudocódigo e programação multithread foi muito influenciado pelo projeto Cilk [51, 118] do MIT 
e pelas extensões Cilk++ [71] de C++ distribuídas por Cilk Arts, Inc. Muitos dos algoritmos multithread neste capítulo 
apareceram em notas não publicadas de conferências realizadas por C. F. Leiserson e H. Prokop, e foram 
implementadas em Cilk ou Cilk-+. O algoritmo multithread de ordenação por intercalação foi inspirado num algoritmo 
de Akl [12]. 

A noção de consistência sequencial se deve a Lamport [223]. 


* N. do RT: Embora algumas traduções para “threads” sejam correntes, preferimos importar a palavra diretamente; somente ela e não 
suas flexões. 


») Q (OPERAÇÕES COM MATRIZES 


Como operações com matrizes encontram-se no núcleo da computação científica, algoritmos eficientes para 
trabalhar com matrizes têm muitas aplicações práticas. Este capítulo focaliza como multiplicar matrizes e resolver 
conjuntos de equações lineares simultâneas. O Apêndice D dá uma revisão dos fundamentos de matrizes. 

A Seção 28.1 mostra como resolver um conjunto de equações lineares usando decomposições LUP. Em seguida, a 
Seção 28.2 explora a estreita relação entre multiplicar e inverter matrizes. Finalmente, a Seção 28.3 a importante classe 
de matrizes simétricas positivas definidas e mostra como podemos usá-las para determinar uma solução de mínimos 
quadrados para um conjunto superdeterminado de equações lineares. 

Uma questão importante que surge na prática é a estabilidade numérica. Devido à precisão limitada de 
representações de ponto flutuante em computadores reais, erros de arredondamento em computações numéricas 
podem ser amplificados no curso de uma computação, levando a resultados incorretos; tais computações são 
denominadas numericamente instáveis. Se bem que faremos breve menção à estabilidade numérica, não a 
abordaremos neste capítulo. Para uma discussão completa de questões de estabilidade, indicamos o excelente livro de 
Golub e Van Loan [144]. 


28.1 ResoLvENDO SISTEMAS DE EQUAÇÕES LINEARES 


Numerosas aplicações precisam resolver conjuntos de equações lineares simultâneas. Podemos formular um 
sistema linear como uma equação matricial na qual cada elemento de matriz ou de vetor pertence a um corpo, 
normalmente o dos números reais . Esta seção discute como resolver um sistema de equações lineares usando um 
método denominado decomposição LUP. 

Começamos com um conjunto de equações lineares com n incógnitas x, X,, ..., X,: 


nº 


Ltd dota, Ão=D, 


E had 1-2 Inn 
o e De a GR Ra 


2n“n 


ax+r+tax+.+a x =b. (28.1) 


ny n2”2 nn”n n 


Uma solução para as equações (28.1) é um conjunto de valores para x,, x,, ... , x, que satisfaz todas as 
equações simultaneamente. Nesta seção trataremos somente do caso em que há exatamente n equações com n 
incógnitas. 

Um modo conveniente de expressar as equações (28.1) é sob a forma de uma equação matricial de vetores 


n1 n2 a nn k, b, 
ou, o que é equivalente, escrever 4 = (a;), x = (x;) e b = (b;) como 
Ax=b. (28.2) 
Se 4 é não singular, possui uma inversa 4-1, e 
x=Ab (28.3) 


é o vetor solução. Podemos provar que x é a única solução para a equação (28.2) da seguinte maneira: se existem duas 
soluções, x e x”, então 4x = 4x” = b e, denotando uma matriz identidade por 7, 


Te 
(AA)x 
AA) 
ASAS) 
(ATIA)x" 
E Ma 


Nesta seção, nossa preocupação predominante será o caso em que 4 é não singular ou, o que é equivalente (pelo 
Teorema D.1), o posto de 4 é igual ao número n de incógnitas. Contudo, existem outras possibilidades que merecem 
uma breve discussão. Se o número de equações é menor que o número n de incógnitas ou, de modo mais geral, se o 
posto de 4 é menor que n, o sistema é subdeterminado. Normalmente, um sistema subdeterminado tem um número 
infinito de soluções, embora possa não ter absolutamente nenhuma solução, se as equações são inconsistentes. Se o 
número de equações for maior que o número n de incógnitas, o sistema é superdeterminado, e é possível que não 
exista nenhuma solução. A Seção 28.3 aborda o importante problema de determinar boas soluções aproximadas para 
sistemas superdeterminados de equações lineares. 

Vamos retornar ao nosso problema de resolver o sistema 4x = b de n equações com n incógnitas. Poderíamos 
calcular 4-1 e, depois, usando a equação (28.3), multiplicar b por 4-1 e obter x = 4-1h. Na prática essa abordagem 
sofre de instabilidade numérica. Felizmente existe outra abordagem — a decomposição LUP —, que é numericamente 
estável e tem a vantagem adicional de ser mais rápida na prática. 


Visão geral da decomposição LUP 
A ideia por trás da decomposição LUP é encontrar três matrizes n x n,L, U e P, tais que 


PA=LU, (28.4) 


onde 
* LL é uma matriz triangular inferior unitária, 
* Ué uma matriz triangular superior e 


* Pé uma matriz de permutação. 


Denominamos as matrizes L, U e P que satisfazem a equação (28.4) decomposição LUP da matriz 4. 
Mostraremos que toda matriz não singular 4 possui tal decomposição. 

A vantagem de calcular uma decomposição LUP para a matriz 4 é que é mais fácil resolver sistemas lineares 
quando as matrizes são triangulares, como é o caso das matrizes L e U. Uma vez determinada uma decomposição LUP 
para 4, podemos resolver a equação (28.2) 4x = b resolvendo somente sistemas lineares triangulares da maneira 
mostrada a seguir. Multiplicando ambos os lados de 4x = b por P obtemos a equação equivalente P4x = Pb que, pelo 
Exercício D.1-4, equivale a permutar as equações (28.1). Usando nossa decomposição (28.4), obtemos 


LUx = Pb. 


Agora podemos resolver essa equação resolvendo dois sistemas lineares triangulares. Definimos y = Ux, onde x é 
o vetor solução desejado. Primeiro, resolvemos o sistema triangular inferior 
Ly = Pb (28.5) 
para o vetor incógnita y por um método denominado “substituição direta”. Depois de resolvido para y, resolvemos 
o sistema triangular superior 
Ux=y (28.6) 
para a incógnita x por um método denominado “substituição reversa”. Como a matriz de permutação P é inversível 
(Exercício D.2-3), multiplicamos ambos os lados da equação (28.4) por P-1 dá P-1P4 = P-1LU, de modo que 
A = PALU. (28.7) 
Por consequência, o vetor x é a nossa solução para 4x = b: 
do = PAI (pela equação (28.7)) 
PiEy (pela equação (28.6)) 
PPb (pela equação (28.5) 
E 


Nossa próxima etapa é mostrar como funcionam a substituição direta e a substituição reversa e atacar o problema 
do cálculo da decomposição LUP. 


Substituição direta e inversa 


Substituição direta pode resolver o sistema triangular inferior (28.5) no tempo (n,), dados L, P e b. Por 
conveniência, representamos a permutação P compactamente por um arranjo [1 .. nn]. Para i= 1,2,...,n, a entrada p[i] 
indica que P,, pll= 1 e P, = 0 para j + pli]. Assim, PA tem aptil na linha i e coluna j, e Pb tem bplil como seu i-ésimo 
elemento. Visto que L é triangular inferior unitária, a equação (28.5) pode ser reescrita como 


Y = Dr 
oh + o y — Eu 
A E Esto + y; Ei Dump 


al + Dali E Lys a tac = Y, = Dom) 


A primeira equação nos diz que y, = bpl!]. Conhecendo o valor de y, podemos substituí-lo na segunda equação, o 
que dá 


Y, = Em DP 


Agora, podemos substituir y, e , na terceira equação, obtendo 


Y3 = a = (Ly, E 04) 


Em geral, substituímos y1, 2, ..., Y:- 1 “diretamente” na i-ésima equação para resolver para y: 


y, = Ra 3/7 


Agora, que resolvemos para y, resolvemos para x na equação (28.6) usando substituição reversa, que é 
semelhante à substituição direta. Aqui, resolvemos primeiro a n-ésima equação e trabalhamos em sentido contrário até a 
primeira equação. Como a substitução direta, esse processo é executado no tempo (n,). Visto que U é triangular 
superior, podemos reescrever o sistema (28.6) como 


UgX, + UÃ, + + U, n-2%4-2 Ca Ui, n1%n- + Uta = ho» 
Uk, + Ns e Us nokta E 4“, n=1%n-1 + UspÃ, E Yo * 

Uso. n2Xn-2 + Uso, ni An E Vo nkn e Yao Ê 

Un1,n-1%n-1 Ca Una = Ya Ed 
nn =s Ya 4 


Assim, podemos resolver sucessivamente para x,, x,-1, ..., x, , da seguinte maneira: 


x = YU 
X,q E a ea e 
XX,» = (Mico e (u, 2,n 1% 1 e u, 2? DE Mit % 


ou, em geral, 


x =|y Dus /U.. 


j=i+1 


Dados P, L, U e b, o procedimento LUP-Sorvr resolve para x combinando substitução direta e substituição 
reversa. O pseudocódigo considera que a dimensão n aparece no atributo L.linhas e que a matriz de permutação P é 
representada pelo arranjo p. 


Lur-SoLve(L, U, 7,b) 


1 n = Linhas 

2 sejam x e y novos vetores de comprimento n 
3 fori=1ton 

4 y; = bai DD aljy y, 

5 for i = n downto 1 

6 dp (3 pe SR u%,) (u, 

Fá return x 


O procedimento LUP-Sorve resolve para y usando substituição direta nas linhas 3-4 e depois resolve para x 
usando substituição inversa nas linhas 5-6. Visto que o somatório dentro de cada um dos laços for inclui um laço 
implícito, o tempo de execução é (n,). 

Como exemplo desses métodos, considere o sistema de equações lineares definido por 


1 Z 0 a 
3 4 4 4=| 7 | 
: es ô 


onde 


NO TO m 


8 


que desejamos resolver para a incógnita x. A decomposição LUP é 


1 0 0 y, 8 
0,2 | RREO, y, |=|3 | 
0,6 0,5 1 A Vá 
e obtemos 


o) 
v=| 1,4 
1,6 


calculando primeiro y,, depois y, e, finalmente, y,. Usando substituição inversa, resolvemos Ux = y para x: 


5 6 3 || * 8 
É 0,8 =06. | x 14 |, 
0 0 25)», LO 


obtendo assim a resposta desejada 


—1,4 
Epi 
0,6 


calculando primeiro x,, depois x, e finalmente x ,. 


X 


Calculando uma decomposição LU 


Agora já mostramos que, se podemos criar uma decomposição LUP para uma matriz não singular 4, substituição 
direta e substituição inversa podem resolver o sistema 4x = b de equações lineares. Agora mostraremos como calcular 
eficientemente uma decomposição LUP para 4. Começamos com o caso no qual 4 é uma matriz não singular n xn e P 
está ausente (ou, o que é equivalente, P = 7). Nesse caso, fatoramos 4 = LU. Denominamos as duas matrizes L e U 
decomposição LU de 4. Usamos um processo conhecido como método de eliminação de Gauss para criar uma 
decomposição LU. Começamos subtraindo núltiplos da primeira equação das outras equações para eliminar a primeira 
variável dessas equações. Então, subtraímos múltiplos da segunda equação da terceira equação e das equações 
subsequentes, de modo que agora a primeira e a segunda variáveis são eliminadas dessas equações. Continuamos esse 
processo até que o sistema remanescente tenha forma triangular superior — na verdade, ele é a matriz U. A matriz L é 
formada pelos multiplicadores de linha que provocam a eliminação de variáveis. 

Nosso algoritmo para implementar essa estratégia é recursivo. Desejamos construir uma decomposição LU para 
uma matriz não singular n x n 4. Se n = 1, terminamos, já que podemos escolher L = 1, e U=A. Paran > 1, dividimos 
A em quatro partes: 


1 1, A 
A = 1 1, es 
A “n2 ti “mn 

T 

— n YU 

Fr 
, 
v À 
onde v = (V5, V5, ..., Vo) = (054, 454, -.., A,!) é um (n - 1)-vetor coluna, wr = (W,, Ws3, ..., Wir = (4,5, A 3, -.., Ant É UM 


(n - 1)-vetor linha e 4” é uma matriz (n - 1) x (n - 1). Então, usando álgebra de matrizes (verifique as equações 
simplesmente efetuando as multiplicações), podemos fatorar 4 como 


II 


1 0 a, tw! 
V/A, das O A'-ww'/a, (28.8) 


Os zeros na primeira e na segunda matrizes da equação (28.8) são (n - 1)-vetores linha e coluna, respectivamente. 
O termo vw,/a ,,, formado tomando o produto externo de v e w e dividindo cada elemento do resultado por a,,, é 
uma matriz (n - 1) x (n - 1), que corresponde em tamanho à matriz 4 da qual ela é subtraída. A matriz (n - 1) x (n - 1) 
resultante 


A'— vw'/a, (28.9) 


é denominada complemento de Schur de A emrelação a a,,. 

Afirmamos que, se 4 é não singular, o complemento de Schur também é não singular. Por quê? Suponha que o 
complemento de Schur, que é (n - 1) x (n - 1), seja singular. Então, pelo Teorema D.1, ele tem posto linha estritamente 
menor que n - 1. Como as n - 1 entradas inferiores na primeira coluna da matriz 


RN | 
A, UW 


0 A'-vw' /a, 


são zero, as n - 1 linhas inferiores dessa matriz devem ter posto estritamente menor que n - 1. Portanto, o posto linha 
da matriz inteira é estritamente menor que n. Aplicando o Exercício D.2-8 à equação (28.8), 4 tem posto estritamente 
menor que n e, pelo Teorema D.1, deduzimos a contradição de que 4 é singular. 

Como o complemento de Schur é não singular, agora podemos determinar recursivamente uma decomposição LU 
para ele. Digamos que 


A'—-vwl/a,=LU', 


onde L'é triangular inferior unitária e U"é triangular superior. Então, usando álgebra de matrizes, temos 


dit 1 0 a w” 
Ud da O A'-w'/a, 
o 1 0 a W 
v/a, nA O LE 
o 1 O ha, w 
via E o U 
=. dit, 


o que dá a nossa decomposição LU. (Observe que, como L'é uma matriz triangular mferior unitária, L também é, e 
como U"é triangular superior, U também é.) 

É claro que se a,, = 0, esse método não finciona porque divide por zero. Também não finciona se a entrada 
superior da extrema esquerda do complemento de Schur 4º - vw,/a,, para zero, já que dividimos por ela na etapa 
seguinte da recursão. Os elementos que usamos como divisores durante a decomposição LU são denominados pivôs e 


ocupam os elementos diagonais da matriz U. A razão por que incluímos uma matriz permutação P durante a 
decomposição LUP é que ela nos permite evitar a divisão por zero. Quando usamos permutações para evitar a divisão 
por zero (ou por números pequenos) estamos pivotando. 

Uma classe importante de matrizes para as quais a decomposição LU sempre funciona corretamente é a classe das 
matrizes simétricas positivas definidas. Tais matrizes não exigem pivotamento e, assim, podemos empregar a estratégia 
recursiva que acabamos de delinear sem medo de dividir por zero. Provaremos esse resultado, bem como vários 
outros, na Seção 28.3. 

Nosso código para decomposição LU de uma matriz 4 segue a estratégia recursiva, exceto que um laço de 
iteração substitui a recursão. (Essa transformação é uma otimização-padrão para um procedimento com “recursão de 
cauda”, um procedimento cuja última operação é uma chamada recursiva a ele mesmo. Veja o Problema 7.4.) O código 
supõe que o atributo A.linhas dá a dimensão de 4. Inicializamos a matriz U com zeros abaixo da diagonal e a matriz L 
com Is em sua diagonal e zeros acima da diagonal. Cada iteração trabalha com uma submatriz quadrada, usando o 
elemento do canto superior esquerdo como pivô para computar os vetores v e w e o complemento de Schur, que passa 
a ser a matriz quadrada com que a próxima iteração trabalha. 


Lu-DEcomPosITION(A) 


1 n = Ainhas 

2 sejam L e U as novas matrizesn x n 

3 inicialize U com zeros abaixo da diagonal 

4 inicialize L com 1s na diagonal e zeros acima da diagonal 
5 fork=1 ton 

6 Us = A 

7 fori=k+1ton 

8 L.=0/a4 !! 1, contém v, 
9 Ui = A ll u, contém ww; 
10 fori=k+1 ton 

u forj=k+1ton 

12 a,=0,;— 1M 


Rkj 

13 return L and U 

O laço for externo, que começa na linha 5, tera uma vez para cada etapa recursiva. Dentro desse laço, a linha 6 
determina que o pivô é u,, = à, O laço for nas linhas 7-9 (que não é executado quando k = n), usa os vetores v e w 
para atualizar L e U. A linha 8 determina os elementos de L abaixo da diagonal, armazenando v;/a,, em, e a linha 9 
calcula os elementos de ZL acima da diagonal, armazenando w, em u,;. Finalmente, as linhas 10-12 calculam os 
elementos do complemento de Schur e os armazenam de volta na matriz 4 (Não precisamos dividir por a, na linha 12 
porque já o fizemos quando calculamos /, na linha 8.) Como a linha 12 é triplamente aninhada, LU-Decomposmon é 
executada no tempo (n,). 

A Figura 28.1 ilustra a operação de LU-Decomrosrron. Ela mostra uma otimização-padrão do procedimento, na 
qual armazenamos os elementos significativos de L e U no lugar na matriz 4. Isto é, podemos configurar uma 
correspondência entre cada elemento a, e ou /; (sei>j) ouu; (se i <j) e atualizar a matriz 4 para que ela contenha L 
e U quando o procedimento termina. Para obter o pseudocódigo para essa otimização pelo pseudocódigo dado, basta 
substituir cada referência a / ou u por a; é fácil verificar que essa transformação preserva a correção. 


Calculando uma decomposição LUP 


Em geral, quando resolvemos um sistema de equações lineares 4x = b, temos de pivotar em elementos de 4 que 
estão fora da diagonal para evitar divisão por zero. Claro que dividir por zero seria desastroso. Porém, também 
queremos evitar dividir por um valor pequeno mesmo que 4 seja não singular — porque isso pode produzir 
instabilidades numéricas. Então, tentamos pivotar em um valor grande. 

A matemática por trás da decomposição LUP é semelhante à da decomposição LU. Lembre-se de que temos uma 
matriz n x n não singular 4 e desejamos encontrar uma matriz de permutação P, uma matriz triangular inferior unitária L 


e uma matriz triangular superior U, tais que P4 = LU. Antes de particionar a matriz 4, como fizemos para a 
decomposição LU, passamos um elemento não nulo; digamos a,!, de algum lugar na primeira coluna até a posição (1, 
1) da matriz. Para estabilidade numérica, escolhemos a,! como o elemento na primeira coluna que tem o maior valor 
absoluto. (A primeira coluna não pode conter somente zeros porque 4 seria singular, já que seu determinante seria zero 
pelos Teoremas D.4 e D.5.) Para preservar o conjunto de equações, trocamos a linha 1 com a linha k, o que equivale a 
multiplicar 4 por uma matriz de permutação O à esquerda (Exercício D.14). Assim, podemos escrever O4 como 


2315 7 815 
6 13 5 19 314 2 4 
2 19 10 23 1 410 2 
4 10 1131 2 1883 
(a) (d) 
Z >» 4 3 1000 2s 143 
6 13 5 19/1310 0||042/4 
2 19 10 23 1410 00 12 
410 1 3 21 4 À O 
A L U 


Figura 28.1 A operação de Lu-Decomposrrion. (a) A matriz 4. (b) O elemento a,, = 2 no círculo preto é o pivô, a coluna sombreada é v/a ea 
linha sombreada é wr. Os elementos de U calculados até agora estão acima da linha horizontal, e os elementos de Z estão à esquerda da 
linha vertical. A matriz complemento de Schur 4'- vwr/an ocupa a parte inferior direita. (ec) Agora operamos na matriz complemento de 
Schur produzida pela parte (b). O elemento a,,= 4no círculo preto é o pivô, e a coluna e a linha sombreadas são v/a,, e wr (no 
particionamento do complemento de Schur), respectivamente. As linhas dividem a matriz nos elementos de U calculados até agora 
(acima), elementos de L calculados até agora (esquerda) e o novo complemento de Schur (direita inferior). (d) Após a próxima etapa, a 
matriz 4 está fatorada. (O elemento 3 no novo complemento de Schur se torna parte de U quando a recursão termina.) (e) Fatoração 4 = 
LU. 


onde v = (a,,, d3,, ..., 4,1), exceto que a, substitui a 1; w = (a,2, ay3, ..., An); € A é uma matriz (n - 1) x (n - 1). Visto 
que a,! 0, agora podemos executar praticamente a mesma álgebra linear que usamos para a decomposição LU, porém, 
desta vez, garantindo que não haverá divisão por zero: 


QA = k1 


Rs 
1 0) a. w 
0) A'- ww" /a, 


Como vimos na decomposição LU, se 4 é não singular, o complemento de Schur 4 = vw,/a também é não 
singular. Portanto, podemos determinar recursivamente uma decomposição LUP para ela com a matriz triangular inferior 
unitária L, a matriz triangular superior U e a matriz de permutação P, tais que 


P(A" — vw"!/a,) = L'U”. 


Defina 


1 0 
P= 
O P 'ê 


que é uma matriz de permutação, visto que é o produto de duas matrizes permutação (Exercício D.1-4). Agora temos 


DA =| É diga 
a 
E | 1 0 a w' 
O PN v/a la O A'-w'/a, 
E 1 0 a, w” 
Pei É O A'-w"/a,. 
-[o1o 0 | w” 
Po/a, ba 0 PRA = vw” /a,) 
E 1 0 a, w” 
Pola, Ha )lo LU 
= 1 0 A, w” 
Po/a E o uU 


= Eli, 


o que produz a decomposição LUP. Como L é triangular inferior unitária, L também é, e como U é triangular superior, 
U também é. 

Observe que, nessa dedução, diferentemente daquela que ocorre na decomposição LU, temos de multiplicar o 
vetor coluna v/a,1 e o complemento de Schur 4º - vw, /aj1 pela matriz de permutação P”. Apresentamos a seguir o 
pseudocódigo para decomposição LUP: 


LUP-composrrioN(A) 


1 n = Alinhas 

a seja 7[1 ..n] um novo arranjo 

3 fori=1 ton 

4 mli]=i1 

5 fork=1 ton 

6 p=0 

7 fori=kton 

8 iflal>p 

9 p= la, 

10 k'=1 

1 ifp ==0 

12 error “matriz singular” 
13 trocar T[k] por 7[k'] 

14 fori=l ton 

15 trocar a, por a, . 

16 fori=k+1ton 

17 A = Al 

18 forj—=k+1ton 

19 1,=4,— AA, 


Como LU-Decomposmon, nosso pseudocódigo para decomposição LUP substitui a recursão por um laço de 
iteração. Como uma melhoria em relação à implementação direta da recursão, mantemos dinamicamente a matriz de 
permutação P como um arranjo p, onde p[i] = j significa que a i-ésima linha de P contém 1 na coluna j. Também 
implementamos o código para calcular L e U “no lugar” na matriz 4. Portanto, quando o procedimento termina, 


| se1>]), 
u. se1< ]. 


A Figura 28.2 ilustra como LUP-Decomrosmon fatora uma matriz. As linhas 3-4 inicialzam o arranjo p para 
representar a permutação identidade. O laço for externo que começa na linha 5 implementa a recursão. Cada vez que 
passamos pelo laço externo, as linhas 6-10 determinam o elemento a,, com maior valor absoluto dentre os que estão na 
primeira coluna atual (a coluna k) da matriz (n - k + 1) x (n - k + 1) cuja decomposição LU estamos determinando. Se 
todos os elementos na primeira coluna atual são zero, as linhas 11-12 informam que a matriz é singular. Para pivotar, 
trocamos p[k”] por p[k] na linha 13 e trocamos a k-ésima e a k -ésima linha de 4 nas linhas 14-15, o que transforma o 
elemento a,, em pivô. (As linhas inteiras são trocadas porque, na dedução do método anterior, não é só 4 = vw aj) 
que é multiplicado por P; v/a,l também é.) Por fim, o complemento de Schur é calculado pelas linhas 16-19 
praticamente do mesmo modo que é calculado pelas linhas 77-12 de LU-Decomrosmon, exceto que aqui a operação é 
escrita para funcionar no lugar. 

Devido à sua estrutura de laço triplamente aninhado, o tempo de execução de LUP-Decomposmon é (n,), que é igual 
ao de LU-Decomposmon. Assim, pivotar nos custa no máximo um fator de tempo constante. 


Exercícios 


28.1-1 Resolva a equação 


| Do) A 3 
4 10x |=| 14 
-6 5 1), -7 


Ou» 
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[RO 
“wo 
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Figura 28.2 A operação de Lur-Decomposrrion. (a) A matriz de entrada 4 coma permutação identidade das linhas à esquerda. A primeira 
etapa do algoritmo determina que o elemento 5 no círculo preto na terceira linha é o pivô para a primeira coluna. (b) As linhas 1 e 3 são 
trocadas e a permutação é atualizada. A coluna e a linha sombreadas representam v e wr. (c) O vetor v é substituído por v/5,e a parte 
inferior direita da matriz é atualizada com o complemento de Schur. Segmentos de reta dividem a matriz em três regiões: elementos de U 
(em cima), elementos de L (esquerda) e elementos do complemento de Schur (inferior direita). (d)-(f) A segunda etapa. (g)-(i) A terceira 
etapa. Nenhuma outra mudança ocorre na quarta e última etapa. (j) A decomposição LUP P4 = LU. 


28.1-2 Determmne uma decomposição LU da matriz 


28.1-3 Resolva a equação 


GN ma 
O OU 
ND O BR 
es 
] 
Xe) 


usando uma decomposição LUP. 
28.1-4 Descreva a decomposição LUP de uma matriz diagonal. 
28.1-5 Descreva a decomposição LUP de uma matriz de permutação 4 e prove que ela é única. 
28.1-6 Mostre que, para todo n > 1, existe uma matriz singular n x n que tem uma decomposição LU. 


28.1-7 Em LU-Decomrosmon, é necessário executar a iteração do laço for mais externo quando k = nº? E em LUP- 


Decomposrrion? 


28.2 INVERSÃO DE MATRIZES 


Normalmente, não utilizamos inversas de matrizes para resolver sistemas de equações lineares na prática; em vez 
disso, preferimos usar técnicas numericamente mais estáveis como a decomposição LUP. Porém, às vezes, precisamos 
calcular a inversa de uma matriz. Nesta seção, mostramos como usar decomposição LUP para calcular a inversa de 
uma matriz. Provamos também que a multiplicação de matrizes e o cálculo da inversa de uma matriz são problemas de 
dificuldade equivalente, no sentido de que (sujeitos a condições técnicas) podemos usar um algoritmo escrito para um 
dos problemas para resolver o outro no mesmo tempo de execução assintótico. Assim, podemos usar o algoritmo de 
Strassen (veja Seção 4.2), escrito para multiplicação de matrizes, para inverter uma matriz. Na verdade, o artigo original 
publicado por Strassen foi motivado pelo problema de mostrar que um conjunto de equações lineares podia ser 
resolvido mais rapidamente do que pelo método usual. 


Calculando a inversa de uma matriz a partir de uma decomposição LUP 


Suponha que temos uma decomposição LUP de uma matriz 4 na forma de três matrizes L, U e P tais que P4 = 
LU. Usando LUP-SoLve, podemos resolver uma equação da forma 4x = b no tempo (n,). Visto que a decomposição 
LUP depende de 4, mas não de b, podemos executar LUP-Sorve para um segundo conjunto de equações da forma 4x = 


b'no tempo adicional (n,). Em geral, tão logo tenhamos a decomposição LUP de 4, podemos resolver, no tempo (kn), 
k versões da equação 4x = b cuja única diferença é o termo b. 
Podemos considerar a equação 


AX=I, (28.10) 


que define a matriz X, a inversa de 4, como um conjunto de n equações distintas da forma 4x = b. Para sermos 

precisos, seja X, a i-ésima coluna de X, e lembre-se de que o vetor unitário e, é a i-ésima coluna de 7. Então, podemos 

resolver a equação (28.10) para X, usando a decomposição LUP de 4 para resolver cada equação 

De legis) KT 
uv 


A= 


: 28.11 
CD 


separadamente para X,. Tão logo tenhamos a decomposição LUP, podemos calcular cada uma das n colunas X, no 
tempo (n ») e, portanto, podemos calcular X pela decomposição LUP de 4 no tempo (n,). Visto que podemos 
determinar a decomposição LUP de A no tempo (n,), podemos calcular a inversa 4-! de uma matriz 4 no tempo (n,). 


Multiplicação de matrizes e inversão de matrizes 


Agora, mostraremos que os fatores de aceleração teóricos obtidos para multiplicação de matrizes se traduzem em 
fatores de aceleração para inversão de matrizes. Na verdade, provamos algo mais forte: a inversão de matrizes é 
equivalente à multiplicação de matrizes no seguinte sentido: se M(n) denota o tempo para multiplicar duas matrizes n x 
n, então podemos inverter uma matriz n x n não singular no tempo O(M(n)). Ademais, se I(n) denota o tempo para 
inverter uma matriz n x n não singular, podemos multiplicar duas matrizes n x n no tempo O(I(n)). Provamos esses 
resultados em dois teoremas separados. 


Teorema 28.1 (Multiplicação não é mais difícil que inversão) 


Se podemos inverter uma matriz n X n no tempo /(n), onde Kn) = (n,) e Kn) satisfazem a condição de regularidade 
K3n) = O(IKn)), então podemos multiplicar duas matrizes n x n no tempo O(I(n)). 


Prova Sejam 4 e B matrizes n X n cujo produto de matrizes C desejamos calcular. Definimos a matriz 3n x 3n D por 


LI AO 
D=|0 1 B 
0 01 


A mversa de D é 


I, 
D'=| 0 I -B|, 
0 


e assim podemos calcular o produto 4B tomando a submatriz superior direita n x n de D-1. Podemos construir a matriz 
D no tempo (n,), que é O(I(n)), porque supomos que /(n) = (n,), e podemos inverter D no tempo O(1(3n)) = O(Kn)), 
pela condição de regularidade para 1(n). Assim, temos M(n) = O(IKn)). 


Observe que /(n) satisfaz a condição de regularidade sempre que /(n) = (n. lg! n) para quaisquer constantes c > 0, 
d>0. 

A prova de que inversão de matrizes não é mais difícil que multiplicação de matrizes se baseia em algumas 
propriedades de matrizes simétricas positivas definidas que provaremos na Seção 28.3. 


Teorema 28.2 (Inversão não é mais difícil que multiplicação) 


Suponha que podemos multiplicar duas matrizes n x n reais no tempo M(n), onde M(n) = (n,) e M(n) satisfaz as duas 
condições de regularidade M(n + k) = O(M(n)) para qualquer k na faixa O < k <n e M(n/2) < cM(n) para alguma 
constante c < 1/2. Então, podemos calcular a inversa de qualquer matriz n x n real não singular no tempo O(M(n)). 


Prova Aqui provamos o teorema para matrizes reais. O Exercício 28.2-6 pede que você generalize a prova para 
matrizes cujas entradas são números complexos. 
Podemos supor que n é uma potência exata de 2, já que temos 


= 
AO A! O 
OL] [01 


para qualquer k > 0. Assim, escolhendo k tal que n + k é uma potência de 2, aumentamos a matriz até um tamanho que 
é a próxima potência de 2 e obtemos a resposta desejada 4-1 pela resposta ao problema aumentado. A primeira 
condição de regularidade para M(n) assegura que esse aumento não provoca o aumento do tempo de execução por 
mais que um fator constante. 

Por enquanto, vamos supor que a matriz n x n 4 seja simétrica e positiva definida. Particionamos 4 e sua inversa 
A-1! em quatro submatrizes 1/2 x n/2: 


Á= : E et E E (28.11) 
Então, se fizermos de 
S=D-CB/CT (28.12) 


o complemento de Schur de 4 comrelação a B (veremos mais detalhes sobre essa forma do complemento de Schur na 
Seção 28.3), temos 


at=[RT|- 


l OT l 1 LOT l 
E B1+BICTS CB! -BICTS (28.13) 


-SACB gi , 


já que 44-1 = 7, como podemos verificar executando a multiplicação de matrizes. Como 4 é simétrica e positiva 
definida, os Lemas 28.4 e 28.5 na Seção 28.3 implicam que B e .S são simétricas e positivas definidas. Portanto, pelo 
Lema 28.3 na Seção 28.3, as inversas B-1 e S-1 existem e, pelo Exercício D.2-6, B-1 e S-1 são simétricas, de modo 
que (B-I)T = B-1 e (S-1)T = S-1. Portanto, podemos calcular as submatrizes R, T, U e V de 4-1 da maneira descrita a 
seguir, onde todas as matrizes mencionadas são n1/2 x n/2. 


1. Forme as submatrizes B, C, Cre D de 4. 
2. Calcule recursivamente a inversa B-: de B. 


3. Calcule o produto de matrizes W = CB-: e depois sua transposta W «, que é igual a B-:Cr (pelo Exercício D.1-2 e 
(Belt = Dad 

4. Calcule o produto de matrizes X = WCr, que é iguala CB-:Cr, e depois amatrz S=D- X=D- CB-IC,. 

5. Calcule recursivamente a inversa S-: de S e defina V como S-.. 

6. Calcule o produto de matrizes Y= S-:W, que é igual a S-:1CB-,, e depois sua transposta Yr, que é igual a B-1CrS-, 
(pelo Exercício D.1-2, (B-1)r = B-1 e (S-1)r = S-1). Defina T como -Y re U como -Y. 

7. Calcule o produto de matrizes Z = W+Y, que é iguala B-1C1S-:1CB-,, e defina R como B-: + Z. 


Assim, podemos inverter uma matriz n x n simétrica positiva definida invertendo duas matrizes n/2 x n/2 nas etapas 
2 e 5, efetuando quatro multiplicações de matrizes n/2 x n/2 nas etapas 3, 4, 6 e 7, mais um custo adicional de O(n,) 
para extrair submatrizes de 4, inserir submatrizes em 4-1 e executar um número constante de adições, subtrações e 
transpostas para matrizes 1/2 x n/2 matrizes. Obtemos a recorrência 


In) < 21(n/2) + 4M(n/2) + O(n?) 
- 21(n/2) + O(M(n)) 
= O(M(n)). 


A segunda linha é válida porque a condição de regularidade no enunciado do teorema implica que 4M(n/2) < 
2M(n) e porque consideramos que M(n) = (n,). A terceira linha decorre porque a segunda condição de regularidade 
nos permite aplicar o caso 3 do teorema mestre (Teorema 4.1). 

Resta provar que podemos obter o mesmo tempo de execução assintótico para multiplicação de matrizes que o 
obtido para inversão de matrizes quando 4 é inversível mas não simétrica e positiva definida. A ideia básica é que, para 
qualquer matriz não singular 4, a matriz 4,.A é simétrica (pelo Exercício D.1-2) e positiva definida (pelo Teorema D.6). 
Então, o artifício é reduzir o problema de inverter 4 ao problema de inverter 4,4. 

A redução é baseada na seguinte observação: quando 4 é uma matriz n x n não singular, temos 


AI =(ATAJIAT, 


já que ((4A,4) -! AJA = (AÇÃ) -! (AA) = Te uma matriz inversa é única. Portanto, podemos calcular 4-! primeiro 
multiplicando A, por 4 para obter 4,4 e depois invertendo a matriz simétrica positiva definida 4,4 empregando o 
algoritmo de divisão e conquista, e finalmente multiplicando o resultado por 4... Cada uma dessas três etapas demora o 
tempo O(M(n)) e, assim, podemos inverter qualquer matriz não singular com entradas reais no tempo O(M(n)). 

A prova do Teorema 28.2 sugere um meio de resolver a equação 4x = b usando decomposição LU sem 
pivotação, desde que 4 seja não singular. Multiplicamos ambos os lados da equação por 4,,, o que produz (4, 4)x = 
Ab. Essa transformação não afeta a solução x, já que 4, é inversível, e assim podemos fatorar a matriz simétrica 
positiva definida 4,.4 calculando uma decomposição LU. Então, usamos substituição direta e inversa para resolver para 
x com o lado direito 4,b. Embora esse método esteja teoricamente correto, na prática o procedimento LUP- 
Decomposrrion funciona muito melhor. A decomposição LUP requer menor número de operações aritméticas por um fator 
constante e tem propriedades numéricas um pouco melhores. 


Exercícios 


28.2-1 Seja M(n) o tempo para multiplicar duas matrizes n x n e seja S(n) o tempo necessário para elevar uma matriz 
n X n ao quadrado. Mostre que multiplicar e elevar matrizes ao quadrado têm essencialmente a mesma 
dificuldade: um algoritmo de multiplicação de matrizes de tempo M(n) implica um algoritmo de elevação ao 
quadrado de tempo O(M(n)), e um algoritmo de elevação ao quadrado de tempo S(n) implica um algoritmo 
de multiplicação de matrizes de tempo O(S(n)). 


28.2-2 Seja M(n) o tempo para multiplicar duas matrizes n x n e seja L(n) o tempo para calcular a decomposição 
LUP de uma matriz n x n. Mostre que um algoritmo de multiplicação de matrizes de tempo M(n) implica um 
algoritmo de decomposição LUP de tempo O(M(n)). 


28.2-3 Seja M(n) o tempo para multiplicar duas matrizes n x n e seja D(n) o tempo necessário para encontrar o 
determinante de uma matriz n x n. Mostre que multiplicar matrizes e calcular o determinante têm 
essencialmente a mesma dificuldade: um algoritmo de multiplicação de matrizes de tempo M(n) implica um 
algoritmo de determinante de tempo O(M(n)), e um algoritmo de determinante de tempo D(n) implica um 
algoritmo de multiplicação de matrizes de tempo O(D(n)). 


28.2-4 Seja M(n) o tempo para multiplicar duas matrizes booleanas n x n e seja T(n) o tempo para determinar o 
fecho transitivo de uma matriz booleana n x n (veja a Seção 25.2). Mostre que um algoritmo de multiplicação 
de matrizes booleanas de tempo M(n) implica um algoritmo de fecho transiítivo de tempo O(M(n) lg nn), e um 
algoritmo de fecho transitivo de tempo T(n) implica um algoritmo de multiplicação de matrizes booleanas de 


tempo O(T(n)). 


28.2-5 O algoritmo de inversão de matrizes baseado no Teorema 28.2 finciona quando elementos de matrizes são 
retirados do corpo de inteiros módulo 2? Explique. 


28.2-6 * Generalize o algoritmo de inversão de matrizes do Teorema 28.2 para tratar matrizes de números 
complexos e prove que sua generalização funciona corretamente. (Sugestão: Em vez da transposta de 4, use 
a transposta conjugada A,, que é obtida da transposta de 4 pela substituição de cada entrada por seu 
conjugado complexo. Em vez de matrizes simétricas, considere matrizes hermitianas, que são matrizes A tais 
que 4=4..) 


28.3 MrRIZES SIMÉTRICAS POSITIVAS DEFINIDAS E APROXIMAÇÃO DE 
MÍNIMOS QUADRADOS 


Matrizes simétricas positivas definidas têm muitas propriedades interessantes e desejáveis. Por exemplo, elas são 
não singulares, e podemos executar decomposição LU com elas sem precisar nos preocupar com divisão por zero. 
Nesta seção, provaremos várias outras propriedades importantes de matrizes simétricas positivas definidas e 
mostraremos uma aplicação interessante para ajuste de curvas por uma aproximação de mínimos quadrados. 

A primeira propriedade que provamos talvez seja a mais básica. 


Lema 28.3 
Qualquer matriz simétrica positiva definida é não singular. 


Prova Suponha que uma matriz 4 seja singular. Então, pelo Corolário D.3 existe um vetor não nulo x tal que 4x = 0. 
Por consequência, x Ax = 0 e 4 não pode ser positiva definida. 


A prova de que podemos executar a decomposição LU para uma matriz simétrica positiva definida 4 sem dividir 
por zero é mais complicada. Começamos provando propriedades de certas submatrizes de 4. Defina a k-ésima 
submatriz líder de 4 como a matriz 4, que consiste na interseção das primeiras k linhas e das primeiras k colunas de 
A. 


Lema 28.4 


Se 4 é uma matriz simétrica positiva definida, então toda submatriz líder de 4 é simétrica e positiva definida. 


Prova É óbvio que cada submatriz líder 4, é simétrica. Para provar que 4, é positiva definida, suponhamos que ela não 
seja e deduzimos uma contradição. Se 4, não é positiva definida, então existe um k-vetor x, £ O tal que x,“ 4, x, < 0. 
Tomando 4 como n x ne 


A, BT 
B É 


A= (28.14) 


para submatrizes B (que é (n - k)xk) e € (que é (n - k)x(n - k)). Defina o n-vetor x = (x, * 0)T, onde n - k zeros 
vêm depois de x... Então temos 


tip= 0 


= Jr O ** 
É Bx, 
T 

e é ap 

<o, 


o que contradiz a afirmação de que 4 seja positiva definida. 


Agora, voltamos a algumas propriedades essenciais do complemento de Schur. Seja 4 uma matriz simétrica 
positiva definida e seja 4, uma submatriz líder k x k de 4. Particione A mais uma vez de acordo com a equação 
(28.14). Generalizamos a equação (28.9) para definir o complemento de Schur S de 4 comrelação a 4, como 


S=C-BA'B". (28.15) 


(Pelo Lema 28.4, 4, é simétrica e positiva definida; portanto, 4 * existe pelo Lema 28.3, e S é bem definida.) Observe 
que nossa primeira definição (28.9) do complemento de Schur é consistente com a equação (28.15) se fizermos k = 1. 

O próximo lema mostra que as matrizes de complemento de Schur de matrizes simétricas positivas definidas são 
também simétricas e positivas definidas. Usamos esse resultado no Teorema 28.2, e precisamos de seu corolário para 
provar a correção da decomposição LU para matrizes simétricas positivas definidas. 


Lema 28.5 (Lema do complemento de Schur) 


Se 4 é uma matriz simétrica positiva definida e 4, é uma submatriz líder k x k de 4, então o complemento de Schur de 
A comrelação a 4, é simétrico e positivo definido. 


Prova Como 4 é simétrica, a submatriz C também é. Pelo Exercício D.2-6, o produto BA4i—1Br é simétrico e, pelo 
Exercício D.1-1, S é simétrica. 

Resta mostrar que .S é positiva definida. Considere a partição de 4 dada na equação (28.14). Para qualquer vetor 
não nulo x, temos x, 4x > O pela hipótese de 4 ser positiva definida. Vamos decompor x em dois subvetores y e z 
compatíveis com 4, e C, respectivamente. Como existe, temos 


B É Z 
A y+B'z 

By + Cz 
= y'Ay + y'B'z + z'By + z'Cz 
= (y + AJBIZT A (y + A Biz) + 2" (C — BA) Blz, (28.16) 


x Ax = (ly 2') 


eae 


por mágica de matrizes (verifique efetuando multiplicações). Esta última equação equivale a “completar o quadrado” da 
forma quadrática (veja o Exercício 28.3-2). 

Visto que x Ax > O é válida para qualquer x não nulo, qualquer z não nulo para podermos escolher y = - 4-1k Bz, 
o que faz o primeiro termo da equação (28.16) desaparecer, restando 


z(C — BA! Blz = z'Sz 


como o valor da expressão. Portanto, para qualquer z £ 0, temos z,Sz = x, 4x > O e, assim, S é positiva definida. 


Corolário 28.6 


A decomposição LU de uma matriz simétrica positiva definida nunca provoca uma divisão por zero. 


Prova Seja 4 uma matriz simétrica positiva definida. Provaremos algo mais forte que o enunciado do corolário: todo 
pivô é estritamente positivo. O primeiro pivô é a,,. Seja e, o primeiro vetor unitário, do qual obtemos a,, = eT! Ae, > 0. 
Visto que a primeira etapa da decomposição LU produz o complemento de Schur de 4 com relação a 4, = (a,,), O 
Lema 28.5 implica por indução que todos os pivôs são positivos. 


Aproximação de mínimos quadrados 


Uma aplicação importante de matrizes simétricas positivas definidas é o ajuste de curvas a determinados conjuntos 
de pontos de dados. Suponha que tenhamos um conjunto de m pontos de dados 


(E Voy. (ãs» Vo), VER, (X, Yo) 2 


onde sabemos que os valores y, estão sujeitos a erros de medição. Gostaríamos de determinar uma função F(x) tal que 
os erros de aproximação 


n,= F(x) — y, (28.17) 


são pequenos para i = 1,2,...,m. A forma da função F depende do problema em questão. Aqui consideramos a forma 
de uma soma linearmente ponderada, 


F()=5 ef), 


onde o número de somandos n e as funções de base f; específicas são escolhidos com base no conhecimento do 
problema em questão. Uma opção comum é f(x) =x, - 1, o que significa que 


FR=e+errae + tea 


é um polinômio de grau n - 1 emx. Assim, dados m pontos de dados (x,, V,), (X,, Y5), -.., (X > Ym), desejamos calcular 
n coeficientes c,, C,, ... , C, que minimizem os erros de aproximação 1,2, ...,m. 

Escolhendo n = m, podemos calcular cada y, exatamente na equação (28.17). Porém, tal função F de grau 
elevado “ajusta o ruído”, bem como os dados, e em geral produz resultados ruins quando usada com a finalidade de 
predizer y para valores de x que ainda não foram vistos. Normalmente é melhor escolher n significativamente menor que 
m e esperar que, escolhendo bem os coeficientes c,, possamos obter uma função F que determine os padrões 
significativos nos pontos de dados sem prestar atenção indevida ao ruído. Existem alguns princípios teóricos para 
escolher n, mas eles não fazem parte do escopo deste texto. Em todo caso, uma vez escolhido um valor de n menor 
que m, acabamos com um conjunto superdeterminado de equações cuja solução desejamos aproximar. Mostramos 
agora como fazer isso. 

Seja 


fa) fa) f(x) 


a matriz de valores das funções básicas nos pontos dados; isto é, a; = f(x;). Seja c = (c,) o desejado vetor n de 
coeficientes. Então, 


fo) fl) e ft) o 
Ac =| HO) bl) e fl) o, 


fa) fa) fla) e, 
F(x) 
F(x,) 


Fx, ) 
é o vetor m de “valores previstos” para y. Assim, 
n=Ac—y 


é o vetor m de erros de aproximação. 
Para minimizar erros de aproximação, optamos por minimizar a norma do vetor de erro , o que nos dá uma 
solução de mínimos quadrados, já que 


1/2 
m 
Inl=|D 57; 
Mm "), Ê 
t=1 


Como 


In = Ac — y| = [Dae 


i= 
podemos minimizar diferenciando 7? em relação a cada c, e, então, exigindo que o resultado seja O: 


d tal q 


safa c—y, ko =0. (28.18) 


As n equações (28.18) para k = 1, 2, ..., n são equivalentes à única equação matricial (Ac - y)T 4 = 0 
(Ac—- y)! A=0 


ou, o que é equivalente (usando o Exercício D.1-2), a 


A(Ae-m=0 
que implica 
ATAC= AY. (28.19) 


Em estatística essa expressão é denominada equação normal. A matriz 4,4 é simétrica pelo Exercício D.1-2 e, 
se A tem posto total de colunas, pelo Teorema D.6 4,.4 também é positiva definida. Por consequência, (4,4)-! existe, 
e a solução para a equação (28.19) é 


c (ATA) ADy 


Aty, (28.20) 


onde a matriz 4+ = ((A,4)-1 A,) é denominada pseudoinversa da matriz 4. A pseudoinversa generaliza 
naturalmente a noção de uma matriz inversa para o caso em que 4 não é quadrada. (Compare a equação (28.20) como 
a solução aproximada para 4c = y coma solução 4-1hb como a solução exata para 4x = b.) 

Como exemplo da produção de um ajuste de mínimos quadrados, suponha que tenhamos cinco pontos de dados 


x,» UA) E (=) > 


mostrados como pontos pretos na Figura 28.3. Desejamos ajustar esses pontos com um polinômio quadrático 
— 2 
EU) =€, = EXT GR » 


Começamos com a matriz de valores de funções de base 


Lx x 

1 “4 
1x 2/54 
> “o 11 1 
A=simeil=|[12 4 
1 3 9 
E 1 5 2 

2 

e 


F(x) = 1,2- 0,757x + 0,214x2 


Figura 28.3 O ajuste de mínimos quadrados de um polinômio quadrático ao conjunto de cinco pontos de dados (f(1, 2), (1, D, 2, 1, (3, 
0), (5, 3)+. Os pontos pretos são os pontos de dados, e os pontos brancos são seus valores estimados previstos pelo polinômio F(x) = 
1,2 -0,757x + 0,214x,, o polinômio quadrático que minimiza a soma dos erros elevados ao quadrado. Cada linha sombreada mostra o erro 
para um ponto de dado. 


cuja pseudoinversa é 


0,500 0,300 0,200 0,100 —0,100 


A" =| 0,388 0,093 0,190 0,193 -0,088 


0,060 —0,036 —0,048 —0,036 0,060 


Multiplicando y por 4+, obtemos o vetor de coeficientes 


E 


1,200 


=) do” |; 


0,214 


que corresponde ao polinômio quadrático 


F(x) = 1,200 — 0,757x + 0,214xº 


como o polinômio que melhor se ajusta aos dados especificados, em um sentido de mínimos quadrados. 

Por uma questão prática, resolvemos a equação normal (28.19) multiplicando y por 4, e determinando uma 
decomposição LU de 4,4. Se 4 tem posto total, é garantido que a matriz 4,4 é não singular porque é simétrica e 
positiva definida (Veja o Exercício D.1-2 e o Teorema D.6). 


Exercícios 


28.3-1 


28.3-2 


28.3-3 
28.3-4 


28.3-5 


28.3-6 


28.3-7 


Prove que todo elemento da diagonal de uma matriz simétrica positiva definida é positivo. 


ab 
Seja 4 = | be | uma matriz 2 x 2 simétrica positiva definida. Prove que seu determinante ac - b, é positivo 
“completando o quadrado” de maneira semelhante à usada na prova do Lema 28.5. 
Prove que o elemento máximo em uma matriz simétrica positiva definida encontra-se na diagonal. 


Prove que o determinante de cada submatriz líder de uma matriz simétrica positiva definida é positivo. 


Seja 4, a k-ésima submatriz líder de uma matriz simétrica positiva definida 4. Prove que det(A,)/det(A,-1) é o 
k-ésimo pivô durante a decomposição LU onde, por convenção, det(A,) = 1. 


Determine a função da forma 
Fx) =c+cxlgx+ce 
que é o melhor ajuste de mínimos quadrados para os pontos de dados 
(1,1), (2,1). (3,3), (4,8). 


Mostre que a pseudoinversa 4+ satisfaz as quatro equações a seguir: 


ARA » &; 
ARA = À, 
(AMT = AA, 
(AFA = AtA. 


Problemas 
28-1 Sistemas tridiagonais de equações lineares 


Considere a matriz tridiagonal 


1-1 0 0 0 

—-1 2-1 0 0 
A=| 0-1 2-1 0.1. 
I 

Pa 


O 0 0 —1 


a. Determmne uma decomposição LU de 4. 
b. Resolva a equação 4x = (1 1 11 1) usando substituição direta e inversa. 
c. Determine a inversa de 4. 


d. Mostre, para qualquer matriz tridiagonal n x n simétrica positiva definida 4 e qualquer vetor b de n 
elementos, como resolver a equação 4x = b no tempo O(n), executando uma decomposição LU. 
Demonstre que qualquer método baseado na formação de 4-1 é assintoticamente mais caro no pior caso. 


e. Mostre, para qualquer matriz tridiagonal n x n não singular 4 e qualquer vetor b de n elementos, como 
resolver a equação 4x = b no tempo O(n), executando uma decomposição LUP. 


28-2 Splines 


Um método prático para interpolar um conjunto de pontos com uma curva é usar spli- nes cúbicos. Temos 
um conjunto f(x, y) :i=0,1,..., ny den+ 1 pares de valores de pontos, onde x, <x, << x,. Desejamos 
ajustar uma curva cúbica por partes (spline) f(x) aos pontos. Isto é, a curva f(x) é formada por n polinômios 
cúbicos f()=a+b.+tc2+d3parai=0,1,...,n- 1 onde sex carr na fáixa x ix x ,+1,o0 valor da 
curva será dado por f(x) = f(x - x)). Os pontos x; onde os polinômios cúbicos são “colados” um ao outro são 
denominados nós. Por simplicidade, suporemos que x:= i parai=0,1,...,n. 


Para garantir continuidade de f(X), é necessário que 


fo) = HO) = y, 
Ned — AD = Ba 


parai=0,1,...,n- 1. Para garantir que f(x) seja suficientemente suave, também insistimos em que a derivada 
de primeiro grau seja contínua em cada nó: 


Fr) = 1 D= 1,40) 
parai=0,1,..,n-1. 


a. Suponha que, para i = 0, 1,... n, tenhamos não somente os pares de valores de pontos ((x:;, y)+, mas 
também as derivadas D;= f "(x;) em cada nó. Expresse cada coeficiente a;, bi, cie d; em termos dos 
valores yi, vt, Di e D+. (Lembre-se de que x; = i.) Com que rapidez podemos calcular os 4n 
coeficientes pelos pares de valores de pontos e derivadas de primeiro grau? 


Ainda resta a questão de como escolher as derivadas de f(x) nos nós. Um método é exigir que as derivadas 
segundas sejam contínuas nos nós: 


E Cd AD fd) 


para i=0,1,...,n- 1. No primeiro e no último nó, consideramos que f “(x 00)=f"00(0)=0ef(xn)=f"n 
—1 (1) = 0; essas hipóteses fazem de f(x) um spline cúbico natural. 


b. Use as restrições de continuidade na derivada segunda para mostrar que, parai=1,2,..n-1, 


a e a A, (28.21) 
c. Mostre que 

20. + D =, —Ujo (28.22) 

D. ,+2D,=3%y, y,.))- (28.23) 


d. Reescreva as equações (28.21) a (28.23) como uma equação matricial envolvendo o vetor D = Do, Di, 
..., Dy de incógnitas. Quais atributos têm a matriz em sua equação? 


e. Demonstre que uma spline cúbica natural pode interpolar um conjunto de n + 1 pares de valores de 
pontos no tempo O(n) (veja o Problema 28-1). 


f' Mostre como determinar um spline cúbico natural que interpola um conjunto de n + 1 pontos (x;, yi) 
satisfazendo xo<x1<... <x», mesmo quando x; não é necessariamente igual a i. Qual equação matricial 
seu método deve resolver e com que rapidez seu algoritmo é executado? 


NorTas DO CAPÍTULO 


Mutítos textos excelentes descrevem computação numérica e científica com muito mais detalhes do que o espaço 
nos permite aqui. Os textos a seguir são especialmente mteressantes: George e Liu [132], Golub e Van Loan [144], 
Press, Teukolsky, Vetterling e Flamnery [283, 284] e Strang [323, 324]. 


Golub e Van Loan [144] discutem estabilidade numérica. Eles mostram por que det(4) não 
é necessariamente um bom indicador da estabilidade de uma matriz 4, propondo em vez disso, 


n 
usar [Al 4"'.., onde [4] =max, Ra a,. Eles também abordam a questão de como calcu- 
(0,0) 5 q ) 
lar esse valor sem calcular A”. 


O método de eliminação de Gauss, no qual se baseiam as decomposições LU e LUP, foi o primeiro método 
sistemático para resolver sistemas de equações lineares. Também foi um dos primeiros algoritmos numéricos. Embora 
fosse conhecido antes, sua descoberta é comumente atribuída a C. F. Gauss (1777-1855). Em seu famoso artigo [325], 
Strassen mostrou que uma matriz n X n pode ser invertida no tempo O(nis 7). Winograd [358] provou originalmente 
que multiplicação de matrizes não é mais dificil que inversão de matrizes, e a recíproca se deve a Aho, Hopcroft e 
Ullman [5]. 

Outra decomposição de matrizes importante é a decomposição de valor singular, ou SVD (singular value 


decomposition). A SVD fatora uma matriz m xn 4 emA4=Q Don, onde é uma matriz m x n com valores não 
nulos somente na diagonal, O, é m x m com colunas mutuamente ortonormais e Q, é n X n, também com colunas 
mutuamente ortonormais. Dois vetores são ortonormais se seu produto interno é O e cada vetor tem uma norma de 1. 
Os livros de Strang [323, 324] e de Golub e Van Loan [144] contêm bons tratamentos da SVD. 


Strang [324] tem uma apresentação excelente de matrizes simétricas positivas definidas e de álgebra linear em 
geral. 


; O PROGRAMAÇÃO LINEAR 


Muitos problemas consistem em maximizar ou minimizar um objetivo, dados recursos limitados e restrições 
concorrentes. Se pudermos especificar o objetivo como uma função linear de certas variáveis e se pudermos especificar 
as restrições aos recursos como igualdades ou desigualdades lineares nessas variáveis, teremos um problema de 
programação linear. Programas lineares surgem em uma variedade de aplicações práticas. Começamos estudando 
uma aplicação em política eleitoral. 


Um problema político 


Suponha que você seja um político tentando vencer uma eleição. Seu eleitorado está distribuído por três tipos 
diferentes de áreas: urbana, suburbana e rural. Essas áreas têm, respectivamente, 100.000, 200.000 e 50.000 eleitores 
registrados. Embora nem todos os eleitores registrados se apresentem para votar, você decide que para governar 
efetivamente gostaria que, no mínimo, metade dos eleitores registrados em cada uma das três regiões vote em você. 
Você é honrado e nunca consideraria apoiar políticas nas quais não acredita, mas percebe que certas questões têm mais 
poder para conquistar votos em certos lugares. As questões primordiais de sua agenda de candidato são construção de 
mais estradas, controle de armas, subsídios agrícolas e um imposto sobre combustíveis destinado à melhoria do trânsito. 
De acordo com as pesquisas da sua equipe de campanha, você pode estimar quantos votos conquistará ou perderá em 
cada segmento da população gastando $1.000 em propaganda para cada questão. Essa informação aparece na tabela 
da Figura 29.1. Nessa tabela, cada entrada descreve o número de milhares de eleitores urbanos, suburbanos ou rurais 
que você conquistaria se gastasse $1.000 com propaganda em defesa de uma questão específica. Entradas negativas 
denotam votos que seriam perdidos. Sua tarefã é determinar a quantidade mínima de dinheiro que seria preciso gastar 
para obter 50.000 votos urbanos, 100.000 votos suburbanos e 25.000 votos rurais. 

Se bem que você poderia criar por tentativa e erro uma estratégia que conquistasse o número necessário de votos, 
tal estratégia poderia não ser a menos dispendiosa. Por exemplo, você poderia dedicar 820.000 à propaganda para 
construção de estradas, $0 para controle de armas, $4.000 para subsídios agrícolas e $9.000 para um imposto sobre 
combustíveis. Nesse caso, você conquistaria 20(-2) + 0(8) + 4(0) + 9(10) = 50 mil votos urbanos, 20(5) + 0(2) + 4(0) 
+ 9(0) = 100 mil votos suburbanos e 20(3) + 0(-5) + 4(10) + 9(-2) = 82 mil votos rurais. Essas seriam as quantidades 
exatas de votos desejados nas áreas urbanas e suburbanas, mais que a quantidade de votos suficientes na área rural. 
(Na verdade, na área rural você receberia mais votos que o número de eleitores existentes!) Para arrebanhar esses 
votos, você teria pago 20 + 0 + 4 + 9 = 33 mil dólares em propaganda. 


política urbanos suburbanos rurais 


construir estradas —2 5 3 
controle de armas 8 2 —o 
subsídios agrícolas 0 0 10 
imposto sobre combustíveis 10 0 =2 


Figura 29.1 O efeito das políticas sobre os eleitores. Cada entrada descreve o número de milhares de eleitores urbanos, suburbanos ou 
rurais que poderiam ser conquistados gastando $1.000 em propaganda de apoio a uma política para uma questão específica. Entradas 
negativas denotam votos que seriam perdidos. 


Seria natural você pensar se essa estratégia é a melhor possível. Isto é, será que você poderia alcançar suas metas 
gastando menos com propaganda? Um processo adicional de tentativa e erro poderia ajudá-lo a responder a essa 
pergunta, mas não seria ótimo ter um método sistemático para responder a tais perguntas? Para desenvolver tal método 
formulamos essa questão em termos matemáticos. Introduzimos quatro variáveis: 


*  x1é o número de milhares de dólares gastos com a propaganda da construção de estradas, 

* - x>2é o número de milhares de dólares gastos com a propaganda do controle de armas, 

*- x3é o número de milhares de dólares gastos com a propaganda dos subsídios agrícolas, 

* x: é o número de milhares de dólares gastos com a propaganda do imposto sobre combustíveis. 


O requisito para conquistar no mínimo 50.000 votos urbanos pode ser expresso como 


= 2% 40%, 40%, 4 108, 250, (29.1) 


De modo semelhante, podemos expressar os requisitos para conquistar no mínimo 100.000 votos suburbanos e 
25.000 votos rurais como 


5x, + 2x, + 0x, + 0x, > 100 (292) 
e 
2 = 5 POA, 2%, 2 20, (29.3) 


Qualquer configuração das variáveis x,, X,, X3, X, que satisfaça as desigualdades (29.1)- (29.3) produz uma 
estratégia que conquista um número suficiente de cada tipo de voto. Para manter os custos tão baixos quanto possível, 
você gostaria de minimizar a quantia gasta com propaganda. Isto é, o que você quer é minimizar a expressão 


ER Cad PE (29.4) 
Embora seja comum ocorrer propaganda negativa em campanhas políticas, certamente não existe propaganda 
de custo negativo. Consequentemente, temos de impor a seguinte condição: 


420% 20,4% >0€4,2 0. (29.5) 


pa és — 


Combinando as desigualdades (29.1)-(29.3) e (29.5) com o objetivo de minimizar (29.4), obtemos o que é 
conhecido como “programa linear”. Formatamos esse problema como 


minimizar ZM (29.6) 


sujeito a 
Ed 0 E Dx LOM, = a) (29.7) 
4 e e Rs SR! é A O: A > 100 (29.8) 
dt = 9% OR = * (29.9) 
FR Seo Do À > 0. (29.10) 


Add: [te 


A solução desse programa linear produz sua estratégia ótima. 


Programas lineares gerais 


No problema geral de programação linear, desejamos otimizar uma função linear sujeita a um conjunto de 
desigualdades lineares. Dado um conjunto de números reais a,, a,, ..., a, e um conjunto de variáveis X,, X,, ..., Xp, 
definimos uma função linear f dessas variáveis por 


nn 


n 
Pp ox) = Ha + tax = Mx )=a2 +aã ++a x =2,%, 
j=1 


Se b é um número real e f é uma função linear, então a equação 


Hp ãp sx)=b 

é uma igualdade linear e as desigualdades 
Pio Pe PR A 

= 

16 ss) Ed 


são desigualdades lineares. Usamos a expressão geral restrições lineares para denotar igualdades lineares ou 
desigualdades lineares. Em programação linear, não permitimos desigualdades estrítas. Formalmente, um problema de 
programação linear é o problema de minimizar ou maximizar uma função linear sujeita a um conjunto finito de 
restrições lineares. Se formos minimizar, denominamos o programa linear programa linear de minimização e, se 
formos maximizar, denominamos o programa linear programa linear de maximização. 

O restante deste capítulo abrangerá a formulação e a solução de programas lineares. Embora vários algoritmos de 
tempo polinomial para programação linear tenham sido desenvolvidos, não os estudaremos neste capítulo. Em vez 
disso, estudaremos o algoritmo simplex, que é o mais antigo algoritmo de programação linear. O algoritmo simplex não 
é executado em tempo polinomial no pior caso, mas é razoavelmente eficiente e muito utilizado na prática. 


Uma visão geral da programação linear 


Para descrever propriedades e algoritmos de programas lineares, é conveniente expressá-los em formas canônicas. 
Neste capítulo utilizaremos duas formas: a forma-padrão e a forma de folgas. Daremos as definições exatas na Seção 
29.1. Informalmente, um programa linear na forma-padrão é a maximização de uma função linear sujeita a 
desigualdades lineares, enquanto um programa linear em forma de folgas é a maximização de uma finção linear sujeita 
a igualdades lineares. Em geral, utilizaremos a forma-padrão para expressar programas lineares, mas achamos mais 
conveniente usar a forma de folgas quando descrevemos os detalhes do algoritmo simplex. Por enquanto, restringimos 
nossa atenção a maximizar uma função linear de n variáveis sujeita a um conjunto de m desigualdades lineares. 

Vamos considerar primeiro o seguinte programa linear com duas variáveis: 


maximizar dot E (29.11) 


sujeito a 
dd 4 E 8 (29.12) 
am o É AU (29.13) 
ZM = = (29.14) 
6 SR = 0 (29.15) 


Denominamos qualquer configuração das variáveis x, e x, que satisfaça todas as restrições (29.12)-(29.15) uma 
solução viável para o programa linear. Se representarmos as restrições em um gráfico de coordenadas cartesianas (x ,, 
x, ), como na Figura 29.2(a), vemos que o conjunto de soluções viáveis (sombreado na figura) forma uma região 
convexa! no espaço bidimensional. Denominamos essa região convexa região viável e denominamos função objetivo 
a função que desejamos maximizar. Conceitualmente, poderíamos avaliar a função objetivo x, + x, em cada ponto da 
região viável; damos o nome de valor objetivo ao valor da função objetivo em um determinado ponto. Então, podemos 
identificar um ponto que tem o valor objetivo máximo como uma solução ótima. Para esse exemplo (e para a maioria 
dos programas lineares), a região viável contém um número infinito de pontos e, portanto, precisamos determinar um 
modo eficiente de encontrar um ponto que alcance o valor objetivo máximo sem avaliar explicitamente a função objetivo 
em cada ponto na região viável. 


X2 


X >0 


x, 20 


(a) (b) 


Figura 29.2 (a) O programa linear dado em (29.12)-(29.15). Cada restrição é representada por uma reta e uma direção. A interseção das 
restrições, que é a região viável, está sombreada. (b) As retas pontilhadas mostram, respectivamente, os pontos para os quais o valor 
objetivo é 0,4e 8. A solução ótima para o programa linear é x, =2 e x,= 6 comvalor objetivo 8. 


Em duas dimensões, podemos otimizar por meio de um procedimento gráfico. O conjunto de pontos para os quais 
x,+x,=z, para qualquer z, é uma reta de inclinação - 1. Se representarmos x, + x, = O em gráfico, obteremos a reta de 
inclinação - 1 que passa pela origem, como na Figura 29.2(b). A interseção dessa reta com a região viável é o conjunto 
de soluções viáveis que têm um valor objetivo 0. Nesse caso, essa interseção da reta com a região viável é o ponto 
único (0, 0). 


De modo mais geral, para qualquer z, a interseção da reta x, + x, = z coma região viável é o conjunto de soluções 
viáveis que têm valor objetivo z. A Figura 29.2(b) mostra as retas x, +x,=0,x,+x,=4€ex,+x,= 8. Como a região 
viável na Figura 29.2 é limitada, deve existir algum valor máximo z para o qual a interseção da reta x, + x,=z coma 
região viável é não vazia. Qualquer ponto em que isso ocorra é uma solução ótima para o programa linear que, nesse 
caso, é o ponto x, = 2 ex, = 6 com valor objetivo 8. 

Não é por acidente que uma solução ótima para o programa linear ocorre em um vértice da região viável. O valor 
máximo de z para o quala reta x, + x, = z intercepta a região viável deve estar no contorno da região viável e, assim, a 
interseção dessa reta com o contorno da região viável é um vértice único ou um segmento de reta. Se a interseção é um 
vértice único, existe apenas uma solução ótima, e ela é esse vértice. Se a interseção é um segmento de reta, todo ponto 
nesse segmento de reta deve ter o mesmo valor objetivo; em particular, ambas as extremidades do segmento de reta 
são soluções ótimas. Visto que cada extremidade de um segmento de reta é um vértice, também nesse caso existe uma 
solução ótima em um vértice. 

Embora não seja fácil representar em gráficos programas lineares com mais de duas variáveis, a mesma intuição é 
válida. Se temos três variáveis, então cada restrição corresponde a um semiespaço no espaço tridimensional. A 
interseção desses semiespaços forma a região viável. O conjunto de pontos para os quais a função objetivo obtém um 
valor z é agora um plano. Se todos os coeficientes da função objetivo são não negativos e se a origem é uma solução 
viável para o programa linear, então, à medida que afastamos esse plano da origem em uma direção normal à função 
objetivo, encontramos pontos de valor objetivo crescente. (Se a origem não é viável ou se alguns coeficientes na função 
objetivo são negativos, o quadro intuitivo se torna um pouco mais complicado.) Como ocorre em duas dimensões, se a 
região viável é convexa, o conjunto de pontos que alcançam o valor objetivo ótimo deve incluir um vértice da região 
viável. De modo semelhante, se temos n variáveis, cada restrição define um semiespaço no espaço n dimensional. A 
região viável formada pela interseção desses semiespaços é denominada simplex*. A função objetivo é agora um 
hiperplano e, devido à convexidade, uma solução ótima ainda ocorre em um vértice da simplex. 

O algoritmo simplex toma como entrada um programa linear e retorna uma solução ótima. Começa em algum 
vértice do simplex e executa uma sequência de iterações. Em cada iteração, o algoritmo percorre uma aresta do simplex 
de um vértice atual até um vértice vizinho cujo valor objetivo não é menor que o do vértice atual (e normalmente é 
maior). O algoritmo simplex termina quando atinge um máximo local, que é um vértice em relação ao qual todos os 
vértices vizinhos têm um valor objetivo menor. Como a região viável é convexa e a função objetivo é linear, esse local 
ótimo é, na verdade, um ótimo global. Na Seção 29.4, usaremos um conceito denominado “dualidade” para mostrar 
que a solução devolvida pelo algoritmo simplex é de fato ótima. 

Embora a visão geométrica dê uma boa perspectiva intuitiva para as operações do algoritmo simplex, não faremos 
referência explícita a ela quando desenvolvermos os detalhes do algoritmo simplex na Seção 29.3. Em vez disso, 
adotaremos uma visão algébrica. Primeiro, escrevemos o programa linear dado em forma de folgas, que é um conjunto 
de igualdades lineares. Essas igualdades lineares expressam algumas das variáveis, denominadas “variáveis básicas”, em 
termos de outras variáveis, denominadas “variáveis não básicas”. Passamos de um vértice para outro fazendo uma 
variável básica se tornar não básica e fazendo uma variável não básica se tornar básica. Essa operação é denominada 
“pivô” e, de um ponto de vista algébrico, nada mais é do que reescrever o programa linear em uma forma de folgas 
equivalente. 

O exemplo de duas variáveis que já citamos foi particularmente simples. Precisaremos abordar muitos outros 
detalhes neste capítulo. Essas questões incluem identificar programas lineares que não têm nenhuma solução, programas 
lineares que não têm nenhuma solução ótima finita e programas lineares para os quais a origem não é uma solução 
viável. 


Aplicações de programação linear 


A programação linear tem grande número de aplicações. Qualquer livro didático sobre pesquisa operacional está 
repleto de exemplos de programação linear, e a programação linear tornou-se uma ferramenta-padrão ensinada a alunos 


na maioria dos cursos de administração de empresas. O cenário eleitoral é um exemplo típico. Dois outros exemplos de 
programação linear são os seguintes: 


* Uma empresa aérea deseja programar as tripulações de seus voos. A Federal Aviation Administration impõe muitas 
restrições, como limitar o número de horas consecutivas que cada membro da tripulação pode trabalhar e insistir 
que uma determinada tripulação trabalhe somente em um modelo de aeronave por mês. A empresa aérea quer 
programar tripulações em todos os seus voos usando o menor número possível de tripulantes. 

* Uma empresa petrolífera quer decidir onde perfurar em busca de petróleo. A instalação de uma plataforma de 
perfuração em determinado local tem um custo associado e, com base em pesquisas geológicas, um retorno 
esperado de algum número de barris de petróleo. A empresa tem um orçamento limitado para localizar novas áreas 
de perfuração e quer maximizar a quantidade de petróleo que espera encontrar, dado esse orçamento. 


Usamos programas lineares também para modelar e resolver problemas e combinatórios, como os que aparecem 
neste livro. Já vimos um caso especial de programação linear usado para resolver sistemas de restrições de diferenças 
sobre grafos na Seção 24.4. Na Seção 29.2 estudaremos como formular vários problemas de grafos e redes de fluxo 
como programas lineares. Na Seção 35.4, utilizaremos programação linear como ferramenta para determinar uma 
solução aproximada para um outro problema de grafos. 


Algoritmos para programação linear 


Este capítulo estuda o algoritmo simplex. Esse algoritmo, quando implementado cuidadosamente, muitas vezes, 
resolve programas lineares gerais rapidamente na prática. Porém, com algumas entradas criadas cuidadosamente, o 
algoritmo simplex pode exigir tempo exponencial. O primeiro algoritmo de tempo polinomial para programação linear foi 
o algoritmo dos elipsóides, cuja execução é lenta na prática. Uma segunda classe de algoritmos de tempo polinomial 
é conhecida como métodos de pontos interiores. Ao contrário do algoritmo simplex, que percorre o exterior da 
região viável e mantém uma solução viável que é um vértice do simplex em cada iteração, esses algoritmos percorrem o 
interior da região viável. As soluções intermediárias, embora viáveis, não são necessariamente vértices do simplex, mas 
a solução final é um vértice. Para entradas grandes, a execução de algoritmos de pontos interiores pode ser tão rápida 
quanto a do algoritmo simplex e, às vezes, mais rápida. 

Se acrescentarmos a um programa linear o requisito adicional de que todas as variáveis devem ter valores inteiros, 
temos um programa linear inteiro. O Exercício 34.5-3 pede que você mostre que só determinar uma solução viável 
para esse problema já é NP-dificil, visto que não há nenhum algoritmo de tempo polinomial conhecido para quaisquer 
problemas NP-difíceis, não existe nenhum algoritmo de tempo polinomial conhecido para programação linear inteira. Ao 
contrário, podemos resolver um problema geral de programação linear em tempo polinomial. 

Neste capítulo, se tivermos um programa linear com variáveis x = (x,, X,,..., X,) € quisermos nos referir a um 
valor particular das variáveis, usaremos a notação x = (x 1,X 2,...,X n). 


29.1 FoRMA-PADRÃO E FORMA DE FOLGAS 


Esta seção descreve dois formatos, a forma-padrão e a forma de folgas, que são úteis quando especificamos e 
trabalhamos com programas lineares. Na forma-padrão todas as restrições são desigualdades, enquanto na forma de 
folgas todas as restrições são igualdades (exceto as que exigem que as variáveis sejam não negativas). 


Forma-padrão 


Na forma-padrão, temos n números reais c,, C,, ..., Cy Mm números reais b,, b,, ..., Db € mn números reais a, para 
i=1,2,.,mej=1,2,...,n. Desejamos determinar n números reais x,, X,, ..., x, que 


n 


maximizem CX, (29.16) 
j=1 
sujeito a 


E: <b para i = 1,2,...,m (29.17) 
j=1 


x > 0) para j = 1,2,...,n. (29.18) 

Generalizando a termmologia que apresentamos para o programa linear de duas variáveis, denominamos a 
expressão (29.16) função objetivo e as n + m desigualdades nas linhas (29.17) e (29.18) restrições. As n restrições 
na linha (29.18) são as restrições de não negatividade. Um programa linear arbitrário não precisa ter restrições de 
não negatividade, mas a forma-padrão as exige. Às vezes, achamos que é conveniente expressar um programa linear de 
uma forma mais compacta. Se criarmos uma matriz m x n 4 = (a,), um m-vetor b = (b;), um n-vetor c = (c;) e um n- 
vetor x = (x,), então podemos reescrever o programa linear definido em (29.16)-(29.18) como 


maximizar cx (29.19) 
sujeito a 

AE E (29.20) 

Er Ú (29.21) 


Na reta (29.19), cx é o produto interno de dois vetores. Na desigualdade (29.20), Ax é um produto vetor-matriz 
e, na desigualdade (29.21), x > O significa que cada entrada do vetor x deve ser não negativa. Vemos que podemos 
especificar um programa linear na forma-padrão por uma tupla (4, b, c) e adotaremos a convenção que 4, b e c 
sempre têm as dimensões dadas acima. 

Agora, apresentamos a terminologia para descrever soluções para programas lineares. Usamos parte dessa 
terminologia no exemplo anterior de um programa linear com duas variáveis. Denominamos solução viável uma 
configuração das variáveis x que satisfazem todas as restrições, enquanto uma configuração das variáveis x que deixa 
de satisfazer no mínimo uma restrição é uma solução inviável. Dizemos que uma solução x tem valor objetivo c, x. 
Uma solução viável x cujo valor objetivo é máximo para todas as soluções viáveis é uma solução ótima, e 
denominamos seu valor objetivo c, x valor objetivo ótimo. Se um programa linear não tem nenhuma solução viável, 
dizemos que o programa linear é inviável; caso contrário, é viável. Se um programa linear tem algumas soluções 
viáveis mas não tem um valor objetivo ótimo finito, dizemos que o programa linear é ilimitado. O Exercício 29.1-9 
pede que você mostre que um programa linear pode ter um valor objetivo ótimo finito mesmo que a região viável não 
seja limitada. 


Converter programas lineares para a forma-padrão 


Sempre é possível converter um programa linear, dado como minimizador ou maximizador de uma função linear 
sujeita a restrições Imeares, para a forma-padrão. Um programa linear pode não estar na forma-padrão por uma das 
quatro razões possíveis: 


A função objetivo pode ser uma minimização em vez de uma maximização. 

Pode haver variáveis sem restrições de não negatividade. 

Pode haver restrições de igualdade que têm um sinal de igualdade em vez de um sinal de menor que ou iguala. 
Pode haver restrições de desigualdade mas, em vez de terem um sinal de menor que ou igual a, elas têm um sinal 
de maior que ou igual a. 


a 


Ao converter um programa linear L em outro programa linear L”, gostaríamos que a propriedade de uma solução 
ótima para L” produzir uma solução ótima para L. Para captar essa ideia, dizemos que dois programas lineares de 
maximização L e L'são equivalentes se, para cada solução viável para L com valor objetivo z, existe uma solução 


viável correspondente x “para L” com valor objetivo z e, para cada solução viável x” para L' com valor objetivo z, existe 
uma solução viável x correspondente para L com valor objetivo z. (Essa definição não implica uma correspondência 
unívoca entre soluções viáveis.) Um programa linear de minimização L e um programa linear de maximização L” são 
equivalentes se, para cada solução viável x para L com valor objetivo z, existe uma solução viável correspondente x ” 
para L” com valor objetivo -z e, para cada solução x “viável para L" com valor objetivo z, existe uma solução viável x 
correspondente para L com valor objetivo -z. 

Mostramos agora como eliminar, um a um, cada um dos problemas possíveis da lista apresentada no início desta 
subseção. Depois de eliminar cada um deles, demonstraremos que o novo programa linear é equivalente ao antigo. 

Para converter um programa linear de minimização L em um programa linear de maximização L” equivalente, 
simplesmente negamos os coeficientes na função objetivo. Visto que L e L'têm conjuntos idênticos de soluções viáveis e 
que, para qualquer solução viável, o valor objetivo em L é o negativo do valor objetivo em L”, esses dois programas 
lineares são equivalentes. Por exemplo, se temos o programa linear 


minimizar 2%. + 3X, 

sujeito a 
é 0 A 7 
fo É 
X 2 W 


e negamos os coeficientes da função objetivo, obtemos 


maximizar 2X — É 0 

sujeito a 
dr A = Z 
E = 2 & 4 
X > 0, 


1 


Em seguida, mostramos como converter um programa linear no qual algumas das variáveis não têm restrições de 
não negatividade em um programa no qual cada variável tem uma restrição de não negatividade. Suponha que alguma 
variável x; não tenha uma restrição de não negatividade. Então, substituímos cada ocorrência de x; por x”, - xº", e 
adicionamos as restrições de não negatividade x”, > 0 ex”,"> O. Assim, se a função objetivo tem um termo c;x,, nós o 
substituímos por cx”, - cx; e, se a restrição i tem um termo a,x;, nós o substituímos por ax”, - ajx”,”. Qualquer 
solução viável x” para o novo programa linear corresponde a uma solução viável para o programa linear original x com 
x=x""—x"" e com o mesmo valor objetivo. Além disso, qualquer solução viável x para o programa linear original 


s=xex";=0sex>00ucomx” "=x e 


, 


corresponde a uma solução viável x” para o novo programa linear com x” 
x ;=0 sex <0. Os dois programas lineares têm o mesmo valor objetivo independentemente do sinal de x; Assim, Os 
dois programas lineares são equivalentes. Aplicamos esse esquema de conversão a cada variável que não tem uma 
restrição de não negatividade para produzir um programa linear equivalente no qual todas as variáveis têm restrições de 
não negatividade. 

Continuando o exemplo, queremos garantir que cada variável tenha uma restrição de não negatividade 
correspondente. A variável x, tem tal restrição, mas a variável x, não tem. Portanto, substituímos x, por duas variáveis 
x” ex”, e modificamos o programa linear para obter 


maximizar 2x, — 3% + 3x; 


sujeito a 
Ro do e e A (29.22) 
ds RE PR EA 
sd A ne > 0. 


Em seguida, convertemos as restrições de igualdade em restrições de desigualdade. Suponha que um programa 
linear tenha uma restrição de igualdade f(x ,, x», ..., x,) = b. Visto que x = y se e somente sex >y ex <y, podemos 
substituir essa restrição de igualdade pelo par de restrições de desigualdade f(x ,, x», ..., x )<befx, x, .., x )>b. 
Repetindo essa conversão para cada restrição de igualdade, temos um programa linear no qual todas as restrições são 
desigualdades. 

Finalmente, podemos converter as restrições maior que ou igual a em restrições menor que ou igual a, multiplicando 
todas essas restrições por - 1. Isto é, qualquer desigualdade da forma 


é equivalente a 


n 


Dá, af = E 


j=1 


Assim, substituindo cada coeficiente a; por -a;e cada valor b, por -b,, obtemos uma restrição menor que ou igual a 
equivalente. 
Concluindo nosso exemplo, substituímos a igualdade na restrição (29.22) por duas desigualdades, obtendo 


maximizar 2x, — 3x + 3x; 
sujeito a 
XX =— 4 E 7 
ct Gs LET (29.23) 
d — 2% db 2%, E 4 
Rishga ds > (0; 


Finalmente, negamos a restrição (29.23). Para manter a consistência para os nomes de variáveis, renomeamos x”, 
como x, e x” como x,, e obtemos a forma-padrão 


maximizar 2x, — 3x, + 3x, (29.24) 
sujeito a 

+ o O do & f (29.25) 

o As + o Sa À (29.26) 

Mm da dr ME E (29.27) 

e SR O > O; (29.28) 


Converter programas lineares para a forma de folgas 


Para resolver eficientemente um programa linear com o algoritmo simplex, preferimos expressá-lo em uma forma na 
qual algumas das restrições são restrições de igualdade. Mais exatamente, nós o converteremos para uma forma na qual 
as restrições de não negatividade são as únicas restrições de desigualdade, e as restrições restantes são igualdades. Seja 


>,a,x,<b, (29.29) 
j=1 


uma restrição de desigualdade. Introduzimos uma nova variável s e reescrevemos a desigualdade (29.29) como as duas 
restrições 


s=b — » ax, (29.30) 
j=1 
s>0. (29.31) 


Denominamos s variável de folga porque ela mede a folga, ou diferença, entre o lado esquerdo e o lado direito 
da equação (29.29). (Veremos em breve por que achamos que é conveniente escrever a restrição com apenas a 
variável de folga no lado esquerdo.) Como a desigualdade (29.29) é verdadeira se e somente se a equação (29.30) e a 
desigualdade (29.31) são verdadeiras, podemos converter cada restrição de desigualdade de um programa linear desse 
modo para obter um programa linear equivalente no qual as únicas restrições de desigualdade são as restrições de não 
negatividade. Quando convertermos da forma-padrão para a forma de folgas, usaremos x, + (em vez de s) para denotar 
a variável de folga associada à i-ésima desigualdade. Portanto, a i-ésima restrição é 


XD), (29.32) 


juntamente com a restrição de não negatividade x, + ;> 0. 

Convertendo cada restrição de um programa linear na forma-padrão, obtemos um programa linear em uma forma 
diferente. Por exemplo, para o programa linear descrito em (29.24)- (29.28), introduzimos variáveis de folga X4, x, e 
x, obtendo 


maximizar = ra, (29.33) 
sujeito a 
reto th E (29.34) 
ia: RR RR (29.35) 
de = kd Z = ZM (29.36) 
Hstetadptoo * Q (29.37) 


Nesse programa linear, todas as restrições exceto as restrições de não negatividade são igualdades e cada variável 
está sujeita a uma restrição de não negatividade. Escrevemos cada restrição de igualdade com uma das variáveis no 
lado esquerdo da igualdade e todas as outras no lado direito. Além disso, cada equação tem o mesmo conjunto de 
variáveis no lado direito, e essas variáveis são também as únicas que aparecem na função objetivo. As variáveis no lado 
esquerdo das igualdades são denominadas variáveis básicas, e as do lado direito são denominadas variáveis não 
básicas. 

Para programas lineares que satisfazem essas condições, às vezes omitimos as palavras “maximizar” e “sujeito a”, 
bem como as restrições explícitas de não negatividade. Utilizaremos também a variável z para denotar o valor da finção 
objetivo. Denominamos o formato resultante forma de folgas. Se escrevermos o programa linear dado em (29.33)- 
(29.37) em forma de folgas, obteremos 


Z = 2 = SE + SM (29.38) 
fofo = dk (29.39) 
= Lp td É (29.40) 
X = 4 — o + = (29.41) 


Como ocorre com a forma-padrão, achamos que seja conveniente adotar uma notação mais concisa para 
descrever uma forma de folgas. Como veremos na Seção 29.3, os conjuntos de variáveis básicas e não básicas 
mudarão à medida que o algoritmo simplex for executado. Usamos N para denotar o conjunto de índices das variáveis 
não básicas e B para denotar o conjunto de índices das variáveis básicas. Sempre temos que |N|=n, B-meNU B= 
(1,2,...,n+m). As equações são indexadas pelas entradas de B e as variáveis no lado direito são indexadas pelas 


entradas de N. Como na forma-padrão, usamos b,, c; e a; para denotar termos constantes e coeficientes. Também 
usamos v para denotar um termo constante opcional na função objetivo. (Um pouco mais adiante veremos que incluir o 
termo constante na função objetivo facilita a determinação do valor da função objetivo.) Assim, podemos definir 
concisamente uma forma de folgas por uma tupla (N, B, 4, b, c, v) denotando a forma de folgas 


Z = UV + po (29. 42) 
jeN 
É fm = ; - 29.43 
x = b ->jax, paraicB, (29.43) 


jeN 


na qual todas as variáveis x são restritas a ser não negativas. Como subtraímos a soma > jENaijx ; em (29.43), os 
valores a; são, na verdade, os negativos dos coeficientes que “aparecem” na forma de folgas. 
Por exemplo, na forma de folgas 


VB Mo Mo 
6 6 É 
x X X 
es +ais Ss 
6 6 3 
8x Z% b à 
r=4- 2. E + & 
o 3 3 
X X 
eba es 
Z Z 


temos B = [1,2,4), N=13,5,6!, 


A, ds A —-1/6 -1/6 1/3 
ds A, As A = 8/3 2/3 =75 
DM Rj 1/2 -1/2 0 


1 8 
b=— b, = 4 E 
b 18 


c=(c;cscoT =(-1/6-1/6 -2/3)T e v = 28. Observe que os índices em 4, b e c não são necessariamente conjuntos de 
inteiros contíguos; eles dependem dos conjuntos de índices B e N. Como exemplo de que as entradas de 4 são os 
negativos dos coeficientes que aparecem na forma de folgas, observe que a equação para x, inclui o termo x,/6, ainda 
que o coeficiente a, seja realmente - 1/6 em vez de +1/6. 


Exercícios 


29.1-1 Se expressarmos o programa linear em (29.24)-(29.28) na notação compacta de (29.19)-(29.21), o que são 
nm, A,bec? 


29.1-2 Dê três soluções viáveis para o programa linear em (29.24)-(29.28). Qual é o valor objetivo de cada uma? 
29.1-3 Para a forma de folgas em (29.38)-(29.41), o que são N, B,4,b, ce v? 
29.1-4 Converta o seguinte programa linear para a forma-padrão: 


minimizar Ps + e EA 


sujeito a 
a — x, = 7 
Se dd E Ea 
a o Q 
É & Q 


29.1-5 Converta o seguinte programa linear para a forma de folgas: 


maximizar 2x, = BA, 
sujeito a 
+ Ro A 
3x, — x, 2 8 
dt + 2 + * Q 
sita E A 
Quais são as variáveis básicas e não básicas? 
29.1-6 Mostre que o seguinte programa linear é inviável: 
maximizar 3x — 2x, 
sujeito a 
md td É 2 
= Zé & 
Eos e O 


29.1-7 Mostre que o seguinte programa linear é ilimitado: 


maximizar X — E 


1 2 
sujeito a 
=. + tm É =] 
- —- ZE É 
X» X, » O. 


29.1-8 Suponha que tenhamos um programa linear geral com n variáveis e m restrições, e suponha que o 
convertemos para a forma-padrão. Dê um limite superior para o número de variáveis e restrições no programa 
linear resultante. 


29.1-9 Dê um exemplo de programa linear para o qual a região viável não é limitada, mas o valor objetivo ótimo é 
finito. 


29.2 FoRMULAR PROBLEMAS COMO PROGRAMAS LINEARES 


Embora o foco deste capítulo seja o algoritmo simplex, também é importante que saibamos reconhecer quando 
podemos formular um problema como um programa linear. Uma vez expresso o problema como um programa linear de 
tamanho polinomial, podemos resolvê-lo em tempo polinomial pelo algoritmo dos elipsoides ou dos pontos interiores. 
Vários pacotes de software de programação linear podem resolver problemas eficientemente; portanto, uma vez 
expresso como um programa linear, tal pacote pode resolvê-lo. 

Examinaremos vários exemplos concretos de problemas de programação linear. Começamos com dois problemas 
que já estudamos: o problema de caminhos mínimos de fonte única (veja o Capítulo 24) e o problema de fluxo máximo 
(veja o Capítulo 26). Então, descrevemos o problema de fluxo de custo mínimo. Embora o problema de fluxo de custo 
mínimo tenha um algoritmo de tempo polinomial que não se baseia em programação linear, não o descreveremos. 
Finalmente, descrevemos o problema do fluxo de várias mercadorias, para o qual o único algoritmo de tempo 
polinomial conhecido se baseia em programação linear. 

Quando resolvemos problemas de grafos na Parte VI, usamos notação de atributo, tal como v.d e (u, v). f. 
Todavia, problemas lineares normalmente usam variáveis com índices em vez de objetos com atributos anexos. 
Portanto, quando expressarmos variáveis em programas lineares, indicaremos vértices e arestas por índices. Por 
exemplo, não denotamos o peso do caminho mínimo para o vértice por v por v.d, mas por d,. De modo semelhante, 
não denotamos o fluxo do vértice u ao vértice v por (u, v). f mas por f,.. Quando se trata de quantidades dadas como 
entradas para problemas, por exemplo, capacidades ou pesos de arestas, continuaremos a usar notações como w(u, v) 
ec(u,v). 


Caminhos mínimos 


Podemos formular o problema de caminhos mínimos de fonte única como um programa linear. Nesta seção, 
focalizaremos a formulação do problema de caminhos mínimos para um par, deixando a extensão para o problema mais 
geral de caminhos mínimos de fonte única para o Exercício 29.2-3. 

No problema de caminhos mínimos para um par, temos um grafo ponderado dirigido G = (V, E), com finção peso 
w:E — que mapeia arestas para pesos de valor real, um vértice de fonte s e um vértice de destino t. Desejamos 
calcular o valor d, que é o peso de um caminho mínimo de s a t. Para expressar esse problema como um programa 
linear, precisamos determinar um conjunto de variáveis e restrições que definem quando temos um caminho mínimo 
desde s a t. Felizmente, o algoritmo de Bellman-Ford faz exatamente isso. Quando termina, o algoritmo de Bellman- 


Ford calculou, para cada vértice v, um valor d, (usando agora a notação por índices em vez da notação por atributo) tal 
que para cada aresta (u, v) E E, temos d + d, + w(u, v). Inicialmente, o vértice de fonte recebe um valor d, = 0, que 
nunca muda. Assim, obtemos o seguinte programa linear para calcular o peso do caminho mínimo de s a t: 


maximizar d, (29.44) 
sujeito a 
d, < d, + w(u,v) para cada aresta (u,v) € E, (29.45) 
d, = 0. (29.46) 


Você talvez se surpreenda porque esse programa linear maximiza uma função objetivo quando supostamente 
deveria calcular caminhos mínimos. Não queremos minimizar a função objetivo, visto que definir d, = O para todo v E 
V produziria uma solução ótima para o programa linear sem resolver o problema dos caminhos mínimos. Maximizamos 
porque uma solução ótima para o problema dos caminhos mínimos define cada d, como minu:(u, VE L(d + w(u, v), 
de modo que d, é o maior valor que é menor ou igual a todos os valores no conjunto td, + w(u, v)+. Queremos 
maximizar d, para todos os vértices v em um caminho mínimo de s a t sujeito a essas restrições em todos os vértices v, 
e maximizar d, cumpre essa meta. 

Esse programa linear tem |V] variáveis d,, uma para cada vértice v & V. Há também |E| + 1 restrições, uma para 
cada aresta, mais a restrição adicional de que o peso do caminho mínimo do vértice fonte tem o valor 0. 


Fluxo máximo 


Em seguida, expressamos o problema do fluxo máximo como um programa linear. Lembre-se de que temos um 
grafo dirigido G = (V, E) no qual cada aresta (u, v) E E tem uma capacidade não negativa c(u, v) > 0, e dois vértices 
preeminentes, uma fonte s e um sorvedouro t. Como definimos na Seção 26.1, um fluxo é uma função não negativa de 
valor realf:Vx V — que satisfaz a restrição de capacidade e conservação de fluxo. Um fluxo máximo é um fluxo 
que satisfaz essas restrições e maximiza o valor de fluxo, que é o fluxo total que sai da fonte menos o fluxo total que 
entra na fonte. Portanto, um fluxo satisfaz restrições lineares, e o valor de um fluxo é uma função linear. Lembrando 
também que convencionamos que c(u, v) = O se (u, v) É E e que não há arestas antiparalelas, podemos expressar o 
problema de fluxo máximo como um programa linear: 


maximizar bi fue Do Ta 
veV veV 


(29.47) 
sujeito a 
fi <cu,0) para cada u,vE V, (29.48) 
da = a a para cada u € V — (s, t), (29.49) 
veV veV 
fi 20 para cada u, v € V. (29.50) 


Esse programa linear tem |V/2 variáveis, correspondendo ao fluxo entre cada par de vértices, e 2/V2 + |V| - 2 
restrições. 

Normalmente, é mais eficiente resolver um programa linear de tamanho menor. O programa linear em (29.47)- 
(29.50) tem, por facilidade de notação, fluxo e capacidade O para cada par de vértices u, v com (u, v) É E. Seria mais 
eficiente reescrever o programa linear de modo que ele tenha O(V + E) restrições. O Exercício (29.2-5) pede que você 
faça isso. 


Fluxo de custo mínimo 


Nesta seção, usamos programação linear para resolver problemas para os quais já conhecíamos algoritmos 
eficientes. Na verdade, muitas vezes, um algoritmo eficiente projetado especificamente para um problema, como o 


algoritmo de Dijkstra para o problema de caminhos mínimos de fonte única ou o método push-relabel para fluxo 
máximo, será mais eficiente que a programação linear, tanto na teoria quanto na prática. 

O real poder da programação linear vem da capacidade de resolver novos problemas. Lembre-se do problema 
enfrentado pelo político no início deste capítulo. O problema de obter um número suficiente de votos e ao mesmo 
tempo não gastar muito dinheiro não é resolvido por qualquer dos algoritmos que estudamos neste livro; no entanto, 
podemos resolvê-lo por programação linear. Há muitos livros que descrevem tais problemas reais que a programação 
linear pode resolver. A programação linear também é particularmente útil para resolver variantes de problemas para os 
quais talvez ainda não conheçamos um algoritmo eficiente. 

Considere, por exemplo, a seguinte generalização do problema de fluxo máximo. Suponha que, além de uma 
capacidade c(u, v) para cada aresta (u, v) tenhamos um custo de valor real a(u, v). Como no problema do fluxo 
máximo, convencionamos que c(u, v) = O se (u, v) € E e que não existe nenhuma aresta antiparalela. Se enviarmos f,, 
unidades de fluxo pela aresta (u, v), incorreremos em um custo a(u, v)f,,- Temos também uma demanda de fluxo d. 


Desejamos enviar d unidades de fluxo de s a t e ao mesmo tempo minimizar o custo total Dujer a(u, v) fuv, 


incorrido pelo fluxo. Esse problema é conhecido como problema de fluxo de custo mínimo. 

A Figura 29.3(a) mostra um exemplo do problema de fluxo de custo mínimo. Desejamos enviar quatro unidades de 
fluxo de s para t, incorrendo no custo total mínimo. Qualquer fluxo válido específico, isto é, uma função f que satisfaça 
as restrições (29.48)-(29.50), incorre em um custo total 


Der a(u, v) fuv. Desejamos determinar o fluxo específico de quatro unidades que minimiza esse custo. A 


Figura 29.3(b) mostra uma solução ótima, com custo total Der a(u, vV) fuwv=(2"D)+(5:D+H3- D+: D+ 
(1:3)=27. 

Existem algoritmos de tempo polinomial projetados especificamente para o problema de fluxo de custo mínimo, 
mas eles não estão no escopo deste livro. Entretanto, podemos expressar o problema de fluxo de custo mínimo como 
um programa linear. O programa linear é semelhante ao do problema de fluxo máximo, com a restrição adicional que o 
valor do fluxo deve ser exatamente d unidades e com a nova função objetivo de minimizar o custo: 


minimizar a a(u,0)f. (29.51) 
sujeito a (uv)EE 
fo < cu,0) para cada u,v € V, 
e ED fe = 0 para cada u € V — (s, t), 
vEE veV 
PEA >, E = d, 
veV vEV 
fo 0 para cada u,v € V. (29.52) 


Figura 29.3 (a) Exemplo de um problema de fluxo de custo mínimo. Denotamos as capacidades por c e os custos por a. O vértice s é a 
fonte e o vértice t é o sorvedouro, e desejamos enviar quatro unidades de fluxo de s a t. (b) Solução para o problema de fluxo de custo 


mínimo no qual quatro unidades de fluxo são enviadas de s a t. Para cada aresta, o fluxo e a capacidade estão escritos como 
fluxo/capacidade. 


Fluxo multimercadorias 


Como exemplo final, consideramos outro problema de fluxo. Suponha que a empresa Lucky Puck da Seção 26.1 
decida diversificar sua linha de produtos e comercializar bastões e capacetes de hóquei, além de discos de hóquei. 
Cada item de equipamento é produzido em sua própria fábrica, tem seu próprio armazém e deve ser transportado todo 
dia da fábrica ao armazém. Os bastões são fabricados em Vancouver e devem ser transportados para Saskatoon, e os 
capacetes são fabricados em Edmonton e devem ser transportados para Regina. No entanto, a capacidade da rede de 
transporte não muda, e os diferentes itens, ou mercadorias, devem compartilhar a mesma rede. 

Esse exemplo é uma instância de um problema de fluxo multimercadorias. Nesse problema, temos novamente 
um grafo dirigido G = (V, E) no qual cada aresta (u, v) &€ E tem uma capacidade não negativa c(u, v) > 0. Como no 
problema de fluxo máximo, supomos implicitamente que c(u, v) = O para (u, v) É E e que o grafo não tem nenhuma 
aresta antiparalela. Além disso, temos k mercadorias diferentes, K,, K,, ..., K,, onde especificamos a mercadoria i pela 
tripla K,= (s,, t,, d). Aqui, o vértice s, é a fonte da mercadoria i, o vértice t, é o sorvedouro da mercadoria i e d, é a 
demanda para a mercadoria i, que é o valor de fluxo desejado para a mercadoria de s, a t,. Definimos um fluxo para a 
mercadoria i, denotado por f; (de modo que f. é o fluxo da mercadoria i do vértice u ao vértice v) como uma função 
de valor real que satisfaz as restrições de conservação de fluxo e capacidade. Agora definimos f.,, o fluxo agregado, 


como a soma dos vários fluxos de mercadorias, de modo que fu Dista. O fluxo agregado na aresta (u, v) não deve 
ser maior que a capacidade da aresta (u, v). Não estamos tentando minimizar qualquer função objetivo nesse problema; 
precisamos somente determinar se tal fluxo existe. Assim, escrevemos um programa linear com uma função objetivo 
“nula“: 

minimizar 0 

sujeito a 


IA 


c(u,v) para cada u,v e V, 


k 
no dx 
==] 


e hi ED fu = 0 para cada i = 1,2,...,ke 
vEE veV para cadau e V — Is, t), 


E las Niva = para cada i = 1,2,...,k, 


0 para cadau,ve Ve 
para cada i = 1,2,...,k. 


dt 
IV 


O único algoritmo de tempo polinomial conhecido para esse problema o expressa como um programa linear e 
depois o resolve com um algoritmo de programação linear de tempo polinomial. 
Exercícios 
29.2-1  Expresse o programa linear de caminhos mínimos para um par de (29.44)-(29.46) na forma-padrão. 


29.2-2 Escreva explicitamente o programa linear correspondente a determinar o caminho mínimo do nó s ao nó y na 
Figura 24.2(a). 


29.2-3 No problema de caminhos mínimos de fonte única, queremos determinar os pesos de caminhos mínimos de 
um vértice de fonte s a todos os vértices v €E V. Dado um grafo G, escreva um programa linear para o qual a 
solução tenha a seguinte propriedade: d, é o peso do caminho mínimo de s a v para cada vértice v E V. 


29.2-4 Escreva explicitamente o programa linear correspondente a determinar o fluxo máximo na Figura 26.1(a). 


29.2-5 Reescreva o programa linear para fluxo máximo (29.47)-(29.50) de modo que ele use apenas O(V + E) 
restrições. 


29.2-6 Escreva um programa linear que, dado um grafo bipartido G = (V, E), resolva o problema do 
emparelhamento máximo em grafo bipartido. 


29.2-7 No problema do fluxo de custo mínimo para várias mercadorias, temos um grafo dirigido G = (V, E) no 
qual cada aresta (u, v) & E tem uma capacidade não negativa c(u, v) > O e um custo a(u, v). Como no 
problema de fluxo de várias mercadorias, temos k mercadorias diferentes, K,, K,, ..., K,, onde especificamos 
a mercadoria i pela tripla K, = (s,, t,, d,). Definimos o fluxo f: para a mercadoria i e o fluxo agregado f,, v na 
aresta (u, v) como no problema de fluxo de várias mercadorias. Um fluxo viável é aquele no qual o fluxo 
agregado em cada aresta (u, v) não é maior que a capacidade da aresta (u, v). O custo de um fluxo é 


Due va(u, v) fuv, e a meta é determinar o fluxo viável de custo mínimo. Expresse esse problema como um 
programa linear. 


29.3 (QOALGORITMO SIMPLEX 


O algoritmo simplex é o método clássico para resolver programas lineares. Ao contrário da maioria dos outros 
algoritmos neste livro, seu tempo de execução não é polinomial no pior caso, porém sugere ideias para programas 
lineares e, muitas vezes, é extraordinariamente rápido na prática. 

Além de ter uma interpretação geométrica, já descrita neste capítulo, o algoritmo simplex guarda alguma 
semelhança com o método de eliminação de Gauss, discutido na Seção 28.1. O método de eliminação de Gauss 
começa com um sistema de igualdades lineares cuja solução é desconhecida. Em cada iteração, reescrevemos esse 
sistema em uma forma equivalente que tem alguma estrutura adicional. Após um certo número de iterações, 
reescrevemos o sistema de modo que a solução seja simples de obter. O algoritmo simplex age de maneira semelhante, 
e podemos considerá-lo como o método de eliminação de Gauss para desigualdades. 

Agora, descrevemos a ideia principal por trás de uma iteração do algoritmo simplex. Associada a cada iteração 
haverá “uma solução básica” fácil de obter pela forma de folgas do programa linear: definmr cada variável não básica 
como 0 e calcular os valores das variáveis básicas pelas restrições de igualdade. Uma iteração converte uma forma de 
folgas em uma forma de folgas equivalente. O valor objetivo da solução básica viável associada não será menor que o 
da iteração anterior e, em geral, será maior. Para conseguir esse aumento no valor objetivo, escolhemos uma variável 
não básica tal que, se fôssemos aumentar o valor dessa variável começando em 0, o valor objetivo também aumentaria. 
O valor do aumento que podemos conseguir para a variável está limitado pelas outras restrições. Em particular, só o 
aumentamos até que algumas variáveis básicas se tornem 0. Então reescrevemos a forma de folgas, trocando os papéis 
daquela variável básica e da variável não básica escolhida. Embora tenhamos usado uma configuração específica das 
variáveis para guiar o algoritmo, a qual usaremos em nossas provas, o algoritmo não mantém explicitamente essa 
solução. Ele simplesmente reescreve o programa linear até que uma solução ótima se torne “óbvia”. 


Um exemplo do algoritmo simplex 


Começamos com um exemplo estendido. Considere o seguinte programa linear na forma-padrão: 


maximizar 3x, + x, + 2x, (29.53) 
sujeito a 

» o RR! (29.54) 

2% deidã, do HM = 28 (29.55) 

dt % + 2 E 96 (29.56) 

Ando O, (29.57) 


Para usar o algoritmo simplex, devemos converter o programa linear para a forma de folgas; vimos como fazer isso 
na Seção 29.1. Além de ser uma manipulação algébrica, a folga é um conceito algorítmico útil Lembre-se de que, na 
Seção 29.1, observamos que cada variável tem uma restrição de não negatividade correspondente; dizemos que uma 
restrição de igualdade é exata para uma configuração particular de suas variáveis não básicas se ela faz com que a 
variável básica da restrição se torne O. De modo semelhante, uma configuração das variáveis não básicas que tornasse 
uma variável básica negativa viola aquela restrição. Assim, as variáveis de folga mantêm explicitamente o quanto cada 
restrição está longe de ser exata e, portanto, ajudam a determinar o quanto podemos aumentar valores de variáveis não 
básicas sem violar nenhuma restrição. 

Associando as variáveis de folga x,, x, e x, respectivamente às desigualdades (29.54)-(29.56) e, expressando o 
programa linear em forma de folgas, obtemos 


Z = a + EH (29.58) 
x = 3% — do im Bh (29.59) 
E do MM = ZE - (29.60) 
x dO = o = & = (29.61) 


O sistema de restrições (29.59)-(29.61) tem três equações e seis variáveis. Qualquer configuração das variáveis 
x, X, € x, define valores para x,, x, € x,; portanto, temos um número infinito de soluções para esse sistema de 
equações. Uma solução é viável se todos os valores x ,, x,, ..., x, São não negativos, e pode haver também um número 
infinito de soluções viáveis. O número infinito de soluções possíveis para um sistema como esse será útil em provas 
posteriores. Focalizamos a solução básica: faça todas as variáveis (não básicas) no lado direito iguais a O e depois 
calcule os valores das variáveis (básicas) no lado esquerdo. Nesse exemplo, a solução básica é (x,, x,, ..., x, ) = (0,0, 
0, 30, 24, 36), e ela tem valor objetivo z= (3 - 0) +(1: 0)+(2 - 0)= 0. Observe que essa solução básica define x, = 
b, para cada i E B. Uma iteração do algoritmo simplex reescreve o conjunto de equações e a função objetivo de modo 
a colocar um conjunto diferente de variáveis no lado direito. Assim, uma solução básica diferente é associada ao 
problema reescrito. Enfatizamos que reescrever não altera de modo algum o problema de programação linear 
subjacente; o problema em uma iteração tem o conjunto de soluções viáveis idêntico ao do problema na iteração 
anterior. Entretanto, o problema realmente tem uma solução básica diferente da solução na iteração anterior. 

Se uma solução básica também é viável, nós a denominamos solução básica viável. Durante a execução do 
algoritmo simplex, a solução básica quase sempre é uma solução básica viável. Porém, veremos na Seção 29.5 que, 
para as primeiras iterações do algoritmo simplex, a solução básica pode não ser viável. 

Nossa meta, em cada iteração, é reformular o programa linear de modo que a solução básica tenha um valor 
objetivo maior. Selecionamos uma variável não básica x, cujo coeficiente na função objetivo é positivo e aumentamos o 
valor de x, o quanto possível, sem violar quaisquer das restrições. A variável x, se torna básica, e alguma outra variável 
x, se torna não básica. Os valores de outras variáveis básicas e da função objetivo também podem mudar. 

Para continuar o exemplo, vamos pensar em aumentar o valor de x. À medida que aumentamos x,, os valores de 
X4 Xs € x, diminuem. Como temos uma restrição de não negatividade para cada variável, não podemos permitir que 
nenhuma delas se torne negativa. Se x, aumenta acima de 30, então x, se torna negativa, e x, e x, se tornam negativas 
quando x, aumenta acima de 12 e 9, respectivamente. A terceira restrição (29.61) é a mais rígida e limita o quanto 
podemos aumentar x. Portanto, trocamos os papéis de x, e x,. Resolvemos a equação (29.61) para x, e obtemos 

XE x 
x =9-"2 "3. De, (29.62) 
4 2 4 


Para reescrever as outras equações com x, no lado direito, substituímos x, usando a equação (29.62). Fazendo 
isso para a equação (29.59), obtemos 


x, = J0=% = 8. 


E 
=30-—-/9— —< - ) X, 3x 
4 4 4 
3% 5x & 
E As A (29.63) 
4 2 4 


De modo semelhante,combinamos a equação (29.62) com a restrição (29.60) e com a finção objetivo (29.58) 
para reescrever nosso programa linear na seguinte forma: 


x ou 3x 
Zz=>WM+ 2+ À o — $ (29.64) 
4 7: 16 
E go O a a Xe (29.65) 
' 4 2 4 
3x 5x x 
x = NU E db dê (29.66) 
, 4 3) 4 
3x x 
ietfsisnda E E: (29.67) 
' 2 já 2 


Denominamos essa operação pivô. Como acabamos de demonstrar, um pivô escolhe uma variável não básica x, 
denominada variável de entrada, e uma variável básica x,, denominada variável de saída, e troca suas funções. 

O programa linear descrito nas equações (29.64)-(29.77) é equivalente ao programa linear descrito nas equações 
(29.58)-(29.61). Executamos duas operações no algoritmo simplex: reescrever equações de modo que as variáveis 
passem do lado esquerdo para o lado direito e substitur uma equação em outra. A primeira operação cria trivialmente 
um problema equivalente, e a segunda, por álgebra linear elementar, também cria um problema equivalente (veja o 
Exercício 29.3-3). 

Para demonstrar essa equivalência, observe que nossa solução básica original (0, 0, 0, 30, 24, 36) satisfaz as 
novas equações (29.65)-(29.67) e tem valor objetivo 27 + (1/4) - 0+ (1/2) : 0- (3/4) : 36 = 0. A solução básica 
associada ao novo programa linear define os valores não básicos como 0, e é (9, 0, 0, 21, 6, 0), com valor objetivo z = 
27. Simples aritmética verifica que essa solução também satisfaz as equações (29.59)-(29.61) e, quando substituída na 
função objetivo (29. 58), tem valor objetivo (3 - D+(1:-0)+(2:0)=27. 

Continuando o exemplo, desejamos encontrar uma nova variável cujo valor queremos aumentar. Não queremos 
aumentar x, já que, à medida que seu valor aumenta, o valor objetivo diminui. Podemos tentar aumentar ou x, ou X3; 
escolhemos x,. Ate quanto podemos aumentar x, sem violar nenhuma das restrições? A restrição (29.65) a limita a 18, 
a restrição (29.66) a limita a 42/5 e a restrição (29.67) a limita a 3/2. A terceira restrição é novamente a mais rígida e, 
portanto, reescrevemos a terceira restrição de modo que x, fique no lado esquerdo e x, no lado direito. Então, 
substituímos essa nova equação, x, = 3/2 - 3x,/8 -x,/4 + x,/8, nas equações (29.64)- (29.66) e obtemos o sistema 
novo, mas equivalente 


x x. 11x 

7 = Mo, & 5 o (29.68) 
4 16 8 16 
33 x, x. 5% 

o = do E as ER (29.69) 


a 4 16 8 16 


e É 2 é E (29.70) 
i 2 8 + 8 
69 DX DX: x 
mi ci A a (29.71) 
+ 16 8 16 


Esse sistema tem a solução básica associada (33/4, 0, 3/2, 69/4, 0, 0), com valor objetivo 111/4. Agora o único 
modo de aumentar o valor objetivo é aumentar x,. As três restrições dão limites superiores de 132, 4 e 00, 
respectivamente. (Obtemos um limite superior co pela restrição (29.71) porque, à medida que aumentamos x,, o valor 
da variável básica x, também aumenta. Portanto, essa restrição não limita o quanto podemos aumentar x,.) 
Aumentamos x, para 4, e ela se torna não básica. Então resolvemos a equação (29.70) para x, e a substituímos nas 
outras equações para obter 


a e déc Boo E sd (29.72) 
6 3 3 
X x 

x = 8 + = do TS «o, (6 (29.73) 
6 6 3 
8) 2) 

x = 4 - o Mt go. Es (29.74) 
3 3 3 

x, = 18 -— Sede DE, (29.75) 
2 2 


Nesse ponto, todos os coeficientes na função objetivo são negativos. Como veremos mais adiante neste capítulo, 
essa situação ocorre somente quando reescrevemos o programa linear de modo que a solução básica seja uma solução 
ótima. Assim, para esse problema, a solução (8, 4, O, 18, 0, 0), com valor objetivo 28, é ótima. Agora podemos 
retornar ao nosso programa linear original dado em (29.53)-(29.57). As únicas variáveis no programa linear original são 
X, X, € X3, € assim nossa solução é x, = 8, x, = 4 ex, = 0, com valor objetivo (3 - 9)+(1:)+(0:0)=28. 
Observe que os valores das variáveis de folga na solução final medem quanta folga sobra em cada desigualdade. A 
variável de folga x, é 18 e, na desigualdade (29.57), o lado esquerdo, com valor 8 + 4 + O = 12, é 18 unidades menor 
que o lado direito 30. As variáveis de folga x, e x, são O e, de fato, nas desigualdades (29.55) e (29.56), o lado 
esquerdo e o lado direito são iguais. Observe também que, embora os coeficientes na forma original de folgas sejam 
inteiros, os coeficientes nos outros programas lineares não são necessariamente inteiros, e as soluções intermediárias 
não são necessariamente inteiras. Além disso, a solução final para um programa linear não precisa ser inteira; é simples 
coincidência que esse exemplo tenha uma solução inteira. 


Pivotar 


Agora, formalizamos o procedimento para pivotar. O procedimento Prvor toma como entrada uma forma de folgas, 
dada pela tupla (N, B, 4, b, c, v), o índice / da variável de saída x,, e o índice e da variável de entrada x. Ele retorna a 
tupla (Nº, B”, 4º, b”, c”, v” ) que descreve a nova forma de folgas. (Lembre-se mais uma vez de que as entradas das 
matrizes m x n 4 e Á são na realidade as negativas dos coeficientes que aparecem na forma de folgas.) 


Prvor(N,B,A,b,c,v,l,e) 


1 /! Calcule os coeficientes para nova variável básica x. 
2 seja À uma nova matriz m x n 

3 b=b/a, 

4 for cada j E N — te) 

5 à; / ala, 

6 âj=1/a, 

7 /! Calcular os coeficientes das restrições restantes. 
8 for cada i e B — (1) 

9 b, =b,-a, b 

10 for cada j E N — fe) 

1 à =a,—a4A, 

2 À= Aids 

13 | // Calcular a função objetivo. 

14 d=v+ch, 

15 for cada j E N — (e) 

16 C=c-cá, 

17 C=-câ, 

18 | // Calcular novos conjuntos de variáveis básicas e não básicas. 
19  N=N-feJu(l) 

20 B=B-(DUte 

21 return (N,B,A,b,8,0) 


Pivor funciona da maneira descrita a seguir. As linhas 3-6 calculam os coeficientes na nova equação para x, 
reescrevendo a equação que tem x, no lado esquerdo de modo que agora tenha x, no lado esquerdo. As linhas 8-12 
atualizam as equações restantes substituindo o lado direito dessa nova equação em cada ocorrência de x,. As linhas 14- 
17 fazem a mesma substituição para a função objetivo, e as linhas 19 e 20 atualizam os conjuntos de variáveis não 
básicas e básicas. A linha 21 retorna a nova forma de folgas. Como dado, se a, = O, Pivor causaria um erro de divisão 
por zero, mas, como veremos nas provas dos Lemas 29.2 e 29.12, chamamos Pivor somente quando a, + 0. 

Agora, resumimos o efeito de Pivor sobre os valores das variáveis na solução básica. 


Lema 29.1 
Considere uma chamada Pivor(N, B, 4, b, c, v, |, e) na qual a, + 0. Sejam (Nº, B”, 47, b”, c”, v” ) os valores retornados 


pela chamada e seja x a solução básica depois da chamada. Então 


1. x,= 0 para cada j € N. 
b 


Ss 


3. x,=b,—a,b, para cadai € B-— fe). 


Prova A primeira afirmação é verdadeira porque a solução básica sempre define todas as variáveis não básicas como 
0. Quando definimos cada variável não básica como O em uma restrição 


ve=sh= ) ax. 
1 1 - ] ] 
jeN 


temos que x, = b” , para cada i E B”. Visto que e E B”, a linha 3 de Pivor dá 


tepbe=bPla 
e e l le 


o que prova a segunda afirmação. De modo semelhante, usando a linha 9 para cada i E B” —fe!, temos 


a 


z=b=b-ab 


e e > 


o que prova a terceira afirmação. 


O algoritmo simplex formal 


Agora estamos prontos para formalizar o algoritmo simplex, que já demonstramos como exemplo. Tal exemplo foi 
particularmente interessante, e poderíamos ter várias outras questões a abordar: 
* Como determinamos se um programa linear é viável? 


* O que fazemos se o programa linear é viável, mas a solução básica inicial não é viável? 
* Como determinamos se um programa linear é ilimitado? 
*- Como escolhemos as variáveis que entram e saem? 


Na Seção 29.5, mostraremos como determinar se um problema é viável e, se for, como determinar uma forma de 
folgas na qual a solução básica inicial seja viável. Portanto, vamos supor que temos um procedimento InrmaLizE- 
SimpLEX(Á, D, c) que toma como entrada um programa linear na forma-padrão, isto é, uma matriz m x n 4 = (a;), um 
m- vetor b = (b;) e um n— vetor c = (c;). Se o problema for inviável, o procedimento retorna uma mensagem indicando 
que o programa é inviável e em seguida termina. Caso contrário, retorna uma forma de folgas para a qual a solução 
básica inicial é viável. 

O procedimento SimrLex toma como entrada um programa linear na forma-padrão, exatamente como foi descrito e 
retorna um n- vetor x = (x,) que é uma solução ótima para o programa linear descrito em (29.19)-(29.21). 


SIMPLEX(A, D,C) 


1 (NB;A,b,c,v) = INITIALIZE-SIMPLEX(A, Db, c) 

2 seja A um novo vetor de comprimento m 

3 while algum índice j e N tem c, > 0 

4 escolher um índice e € N para o qual c, > 0 
5 for cada índice i E B 

6 ifa,>0 

z A, =b/a, 

8 else 4, = 00, 

9 escolher um índice | € B que minimiza A, 
10 if À, == 00 

fi] return “ilimitado” 

12 else (NB;4,b,c,v) = PivoT(NBA,b,c,v,l,e) 
13 fori=1 ton 

14 fieB 

15 x=b, 

16 else x,= 0 

17 return (X,,X,,...,X,) 


O procedimento SimpLex funciona da seguinte maneira: na linha 1, chama o procedimento InmaLize-SimpLex(A, Db, c) 
já descrito, que determina que o programa linear é inviável ou retorna uma forma de folgas, para a qual a solução básica 
é viável. O laço while das linhas 3-12 forma a parte principal do algoritmo. Se todos os coeficientes da função objetivo 


são negativos, o laço while termina. Caso contrário, a linha 4 seleciona como variável de entrada uma variável x, cujo 
coeficiente na função objetivo é positivo. Embora possamos escolher qualquer variável como variável de entrada, 
supomos que usamos alguma regra determinística previamente especificada. Em seguida, as linhas 5-9 verificam cada 
restrição e escolhem a que impõe limites mais estritos ao aumento possível de x, sem violar nenhuma das restrições de 
não negatividade; a variável básica associada a essa restrição é x,. Novamente, estamos livres para escolher uma de 
diversas variáveis para sair da base, mas supomos que usamos alguma regra determinística previamente especificada. Se 
nenhuma das restrições impuser um limite ao aumento possível da variável de entrada, o algoritmo retornará “ilimitado” 
na linha 11. Caso contrário, a linha 12 trocará os papéis da variável que entra com a que sai, chamando Prvor(N, B, 4, 
b, c, v, |, e), como já descrevemos. As linhas 13-16 calculam uma solução x,, x,, ... , x, para as variáveis de 
programação linear originais definindo todas as variáveis não básicas como O e cada variável básica x, como b,, e a linha 
17 devolve esses valores. 

Para mostrar que SimpLexé correto, primeiro mostramos que, se SimpLextem uma solução inicial viável e 
eventualmente termina, então ele retorna uma solução viável ou determina que o programa linear é ilimitado. Então, 
mostramos que SimpLex termina. Finalmente, na Seção 29.4 (Teorema 29.10), mostramos que a solução retornada é 
ótima. 


Lema 29.2 


Dado um programa linear (A, b, c), suponha que a chamada InrmaLize-Simprex na linha 1 de Simprex retorne uma forma de 
folgas para a qual a solução básica é viável. Então, se SimpLex retorna uma solução na linha 17, essa solução é uma 
solução viável para o programa linear. Se SimpLex retorna “ilimitado” na linha 11, o programa linear é ilimitado. 


Prova Usamos o seguinte invariante de laço de três partes: 


No início de cada iteração do laço while das linhas 3-12, 
1. Aforma de folgas é equivalente à forma de folgas retornada pela chamada de InmaLize-SimpLEx. 
2. Para cadai E B, temos b;> 0. 
3. Asolução básica associada à forma de folgas é viável. 


Inicialização: A equivalência das formas de folgas é trivial para a primeira iteração. Admitimos, no enunciado do 
lema, que a chamada a InmaLie-Simprex na linha 1 de Smprex retorna uma forma de folgas para a qual a solução 
básica é viável. Assim, a terceira parte do invariante é verdadeira. Além disso, visto que a solução básica define 
cada variável básica x, como b, , temos que b, > O para todo i E B. Assim, a segunda parte do invariante é 
válida. 

Manutenção: Mostraremos que cada iteração do laço while mantém o invariante de laço, supondo que a 
declaração return na linha 11 não é executada. Trataremos o caso no qual a linha 11 é executada quando 
discutirmos término. Uma iteração do laço while troca o papel de uma variável básica e uma variável não básica 
chamando o procedimento Prvor. Pelo Exercício 29.3-3, a forma de folgas é equivalente à da iteração anterior 
que, pelo invariante de laço, é equivalente à forma de folgas micial. Agora demonstramos a segunda parte do 
invariante de laço. Supomos que, no início de cada iteração do laço while, b, > O para cada i E B, e 
mostraremos que essas desigualdades permanecem verdadeiras após a chamada a Prvor na linha 12. Visto que as 
únicas mudanças para as variáveis b, e o conjunto B de variáveis básicas ocorrem nessa atribuição, basta mostrar 
que a linha 12 mantém essa parte do invariante. Fazemos b;, a; e B se referirem a valores antes da chamada de 
Pivor, e se referir a valores retornados de Pivor. 


Primeiro, observamos que b”. > 0 porque b, > O pelo invariante de laço, a, > O pelas linhas 6 e 9 de Simprex e 
b'e=bla,, pela linha 3 de Pivor. 


Para os índices restantes i & B- (/), temos que 


b = b-a, b, (pela linha 9 de Prvor) 
= b-a(b/a,) (pela linha 3 de Prvor). (29.76) 


Temos dois casos a considerar, dependendo de a,.> 0 ou a, < 0. Se a,.> 0, então, desde que escolhamos / 


1€— 


tal que 


b/a,<b/a, paratodoieB, (29.77) 
temos 
b, = b—-akb/a,)) (pela equação (29.76)) 
> b-a(b/a,)) (pela desigualdade (29.77)) 
ss b, db, 
0, 
e, assim, b”;> 0. Se a,. < 0, então como a,., b, e b, são não negativos, a equação (29.76) implica que b” ; 
também deve ser não negativo. 
Agora demonstramos que a solução básica é viável, isto é, que todas as variáveis têm valores não negativos. 
As variáveis não básicas são atribuídas O e, portanto, são não negativas. Cada variável básica x, é definida 
pela equação 
x,=b — Biro . 
jeN 


A solução básica define x, = b.. Usando a segunda parte do invariante de laço, concluímos que cada variável 
básica é não negativa. 

Término: O laço while pode terminar de dois modos. Se terminar por causa da condição na linha 3, a solução 
básica atual é viável e a linha 17 retoma essa solução. O outro modo de terminar é retornar “ilimitado” na linha 
11. Nesse caso, para cada iteração do laço for nas linhas 5-8, quando a linha 6 é executada verificamos que a;,, 
< 0. Considere a solução x definida como 


00 sei=e, 
x. = 10 seieN-—tlel, 
b 


Agora mostramos que essa solução é viável, isto é, que todas as variáveis são não negativas. As variáveis não 
básicas exceto x, são 0, e x, = oo > 0; assim, todas as variáveis não básicas são não negativas. Para cada 


variável básica x,, temos 


O invariante de laço implica que b, > 0, e temos a,.< 0 ex,= c0> 0. Portanto, x, > 0. Mostramos agora que o 


1€ — 


valor objetivo para a solução é ilimitado. O valor objetivo é 


z=0+), CX 


jeN 


=V+CA,: 
Visto que c,> O (pela linha 4de SimpLEx) e x, = 00, O valor objetivo é c0, e assim o programa linear é ilimitado. 


Resta mostrar que SimpLex termina e, quando termina, a solução que ele retorna é ótima. A Seção 29.4 tratará de 
otimalidade. Agora, discutimos término. 


Término 

No exemplo dado no início desta seção, cada iteração do algoritmo simplex aumentou o valor objetivo associado à 
solução básica. Como o Exercício 29.3-2 pede que você mostre, nenhuma iteração de Simprex pode diminuir o valor 
objetivo associado à solução básica. Infelizmente, é possível que uma iteração deixe o valor objetivo imalterado. Esse 
fenômeno é denominado degenerescência e agora o estudaremos em detalhes. 

A atribuição na linha 14 de Pivor, v” = v + c, b“e, muda o valor objetivo. Visto que SimpLex chama Pivor somente 
quando c, > 0, o único modo de o valor objetivo permanecer inalterado (isto é, v" = v) é b”, ser 0. Esse valor é 
atribuído como b”e = b /a,, na linha 3 de Pivor. Como sempre chamamos Pivor com a,, £ 0, vemos que, para b"e ser 
igual a O e, consequentemente, o valor objetivo permanecer inalterado, devemos ter b, = 0. 

De fato, essa situação pode ocorrer. Considere o programa linear 


A X, = X, di X, 
X, = 8 — E = A 
X, = É = Ma 


Suponha que escolhemos x, como a variável de entrada e x, como a variável de saída. Após pivotar, obtemos 


“= É a RS e 


E 8 — X — x 


X = x o 


+ 


3º 


Nesse ponto, nossa única escolha é pivotar com x, entrando e x, saindo. Visto que b, = 0, o valor objetivo de 8 
permanece inalterado após o pivotamento: 


o o a a o 
o 
X, = a = Ma 


O valor objetivo não mudou, mas nossa forma de folgas mudou. Felizmente, se pivotarmos novamente, com x, 
entrando e x, saindo, o valor objetivo aumenta (para 16), e o algoritmo simplex poderá continuar. 

Valores degenerados podem impedir que o algoritmo simplex termine porque podem levar a um fenômeno 
conhecido como ciclagem: as formas de folgas em duas iterações diferentes de SimpLex são idênticas. Por causa dos 
valores degenerados, SimpLex poderia escolher uma sequência de operações de pivô que deixam o valor objetivo 


inalterado, mas repetem uma forma de folgas dentro da sequência. Visto que SimpLex é um algoritmo determinístico, se 
ele ciclar percorrerá a mesma série de formas de folgas para sempre e nunca terminará. 

A ciclagem é a única razão pela qual SimpLex poderia não terminar. Para mostrar esse fato, temos de desenvolver 
algumas ferramentas adicionais. 

A cada iteração, SimpLex mantém 4, b, c e v , além dos conjuntos N e B. Embora seja preciso manter 4, b, ce v 
explicitamente para implementar o algoritmo simplex eficientemente, conseguimos passar sem mantê-los. Em outras 
palavras, os conjuntos de variáveis básicas e não básicas são suficientes para determinar mequivocamente a forma de 
folgas. Antes de provar esse fato, provamos uma lema algébrico útil. 


Lema 29.3 


Seja / um conjunto de índices. Para cada j & 1, sejam o e / números reais e seja x, uma variável de valor real. Seja 
qualquer número real. Suponha que, para quaisquer configurações de x, tenhamos 


240%) =9Y+ Dub (29.78) 
JE JE 


Então, oi = $; para cadaj € Te y=0. 


Prova Visto que a equação (29.78) é válida para quaisquer valores de x,, podemos usar valores específicos para tirar 
conclusões sobre a, 5 e y. Se fizermos x, = O para cada ; & 1, concluímos que y = 0. Agora, escolha um índice 
arbitrário j & 1, e sejam x, = 1 e x, = O para todo k + j. Então, devemos ter o) = &j . Visto que escolhemos j como 
qualquer índice em 7, concluímos que oy = &; para cada j E T. 


Um programa linear determinado tem muitas formas de folgas diferentes; lembre-se de que cada forma de folgas 
tem o mesmo conjunto de soluções viáveis e ótimas que o programa linear original. Mostramos agora que a forma de 
folgas de um programa linear é determinada exclusivamente pelo conjunto de variáveis básicas. Isto é, dado o conjunto 
de variáveis básicas, uma única forma de forma de folgas (um único conjunto de coeficientes e lados direitos) está 
associado a essas variáveis básicas. 


Lema 29.4 


Seja (4, b, c) um programa linear na forma-padrão. Dado um conjunto B de variáveis básicas, a forma de folgas 
associada é determinada inequivocamente. 


Prova Suponha, por contradição, que haja duas formas de folga diferentes com o mesmo conjunto B de variáveis 
básicas. As formas de folga devem também ter conjuntos idênticos N = (1,2,...,n+m! - B de variáveis não básicas. 
Escrevemos a primeira forma de folgas como 


Z=V+)>» cx (29.79) 
= jij 


x=b-> ax, paraieB, (29.80) 
jeN 


E a segunda como 


z=04+Dc'x, (29.81) 


jeN 


x = b-5,a, x, paraieB. (29.82) 
jeN 


Considere o sistema de equações formado subtraindo cada equação na linha (29.82) da equação correspondente na 
linha (29.80). O sistema resultante é 


0=(b —b')-5 a, 0, parai e B 


ij ij 
jEN 


ou, de modo equivalente, 


Dam =(b —b J+Da jX, paraie B. 


jeN jeN 


Agora, para cada i & B, aplicamos o Lema 29.3 comai = ai ,bi=a'jey=b;-b'jel=N. Visto que oi = f, temos 
que a; = a”, para cada; & Ne, como y = 0, temos que b, = b',. Assim, para as duas formas de folga, 4 e b são 
idênticos a 4" e b”. Usando um argumento semelhante, o Exercício 29.3-1 mostra que também deve ocorrer c = c'e v 
= ve, consequentemente, que as formas de folga devem ser idênticas. 


Agora, podemos mostrar que ciclagem é a única razão pela qual SimpLex poderia não terminar. 


Lema 29.5 


Se SimPpLEX deixar de terminar em, no máximo, ("") iterações, ele ciclará. 

Prova Pelo Lema 29.4, 0 conjunto B de variáveis básicas determina inequivocamente uma forma 
de folgas. Há n + m variáveis e |B| = m; portanto, há no máximo ("'”) maneiras de escolher B. As- 
sim, há apenas (":”) formas de folga distintas. Então, se StMPLEX for executado por mais de ("1") 


m 


iterações, ele deverá ciclar. 


Ciclar é teoricamente possível, mas extremamente raro. Podemos evitar que isso ocorra escolhendo as variáveis 
que entram e saem com um pouco mais de cuidado. Uma opção é perturbar ligeiramente a entrada de modo que seja 
impossível ter duas soluções com o mesmo valor objetivo. Uma outra opção é desempatar escolhendo sempre a 
variável com menor índice, uma estratégia conhecida como regra de Bland. Omítimos a prova de que essas estratégias 
evitam ciclagem. 


Lema 29.6 


Se as linhas 4 e 9 de SimrLex sempre desempatam escolhendo a variável com o menor índice, então SimpLex termina. 


Concluímos esta seção com o lema a seguir. 


Lema 29.7 


Desde que InITIALIZE-SIMPLEX retorne uma forma de folgas para a qual a solução básica é viá- 
vel, SIMPLEX informa que um programa linear é ilimitado ou termina com uma solução viável 
em, no máximo, ("'”) iterações. 


m 


Prova Os Lemas 29.2 e 29.6 mostram que, se INITIALIZE-SIMPLEX retorna uma forma de folgas 
para a qual a solução básica é viável, SIMPLEX informa que um programa linear é ilimitado ou 
termina com uma solução viável. Pela contrapositiva do Lema 29.5, se SimPLEX termina com 
uma solução viável, então termina em, no máximo, ("*”) iterações. 


Exercícios 


29.3-1 Conclua a prova do Lema 29.4 mostrando que deve ser o caso em que c=c'ev =v'. 29.3-2 Mostre que a 
chamada a Pivor na linha 12 de Simprex nunca diminuirá o valor de v. 29.3-3 Prove que a forma de folgas dada 
ao procedimento Pivor e a forma de folga que o 
procedimento devolve são equivalentes. 


29.3-4 Suponha que convertemos um programa linear (4, b, c) em forma-padrão para forma de folgas. Mostre que a 
solução básica é viável se e somente se b, > O para i= 1,2,...,m. 


29.3-5 Resolva o seguinte programa linear usando Simprex: 


maximizar 18x, + 125%, 
sujeito a 
+ a É < 20 
É “ 12 
ds na 16 
a > O 
29.3-6 Resolva o seguinte programa linear usando Simprex: 
maximizar 5x, — 3x, 
sujeito a 
+ RE 1 
Ze + mm É 2 
GR A > O 
29.3-7 Resolva o seguinte programa linear usando Simprex: 
minimizar do X + X; 
sujeito a 
et do Lo + dê 2 10000 
20x, + 5% + 10x, > 30000 
AR A + > 0. 


13 2a) 


29.3-8 Na prova do Lema 29.5, argumentamos que há no máximo (":”) modos de escolher um 


conjunto B de variáveis básicas. Dê um exemplo de programa linear no qual haja um 
número estritamente menor que (":”) modos de escolher o conjunto B. 


29.4 DuasLiDaDE 


Provamos que, sob certas circunstâncias, SimpLex termina. Contudo, ainda não mostramos que ele realmente 
encontra uma solução ótima para um programa linear. Para tal, apresentamos um conceito importante, denominado 
dualidade de programação linear. 

A dualidade nos permite provar que uma solução é de fato ótima. Vimos um exemplo de dualidade no Capítulo 26 
com o Teorema 26.6, o teorema do fluxo máximo/corte mínimo. Suponha que, dada uma instância de um problema de 
fluxo máximo, encontramos um fluxo f com valor |f. Como saber se f é um fluxo máximo? Pelo teorema do fluxo 
máximo/corte mínimo, se pudermos determinar um corte cujo valor também seja |f, teremos verificado que fé de fato 
um fluxo máximo. Essa relação nos dá um exemplo de dualidade: dado um problema de maximização, definimos um 
problema de minimização relacionado, tal que os dois problemas têm os mesmos valores objetivos ótimos. 

Dado um programa linear no qual o objetivo é maximizar, descreveremos como formular um programa linear dual 
no qual o objetivo é minimizar e cujo valor ótimo é idêntico ao do programa linear original. Quando nos referimos a 
programas lineares duais, denominamos o programa linear original prima. 

Dado um programa linear primal na forma-padrão, como em (29.16)-(29.18), definimos o programa linear dual 
como 


minimizar Sby, (29.83) 
sujeito a Es 
DM E paraj=1,2,...,n, (29.84) 
i=1 
w% 2 O para i = 1,2,...,m. (29.85) 


Para formar o dual, trocamos a maximização para uma minimização, permutamos os papéis dos coeficientes dos 
lados direitos e a função objetivo, e substituímos o sinal menor que ou igual a por um sinal maior que ou igual a. 
Cada uma das m restrições no primal tem uma variável associada y;no dual, e cada uma das n restrições no dual tem 
uma variável x,associada no primal. Por exemplo, considere o programa linear dado em (29.56)-(29.57). O dual desse 
programa linear é 


minimizar 30y, + 24y, + 36y, (29.86) 
sujeito a 

PR RR 57 RR OR (29.87) 

à Ss 2 Sd dE 2 À (29.88) 

SU E SM Ed * (29.89) 

Vw YoYs Ea (29.90) 


Mostraremos, no Teorema 29.10, que o valor ótimo do programa linear dual é sempre igual ao valor ótimo do 
programa linear primal. Além disso, na verdade, o algoritmo simplex resolve implicitamente os programas lineares primal 
e dual ao mesmo tempo, dando assim uma prova da otimalidade. 

Começamos demonstrando a dualidade fraca, que afirma que qualquer solução viável para o programa linear 
primal tem um valor não maior que o de qualquer solução viável para o programa linear dual. 


Lema 29.8 (Dualidade fraca de programação linear) 


Seja x uma solução viável para o programa linear primal em (29.16)-(29.18) e seja y solução viável para o programa 
linear dual em (29.83)-(29.85). Então, temos 


m 


n 
DA, o 2h ê 


Prova Temos 


EE Da (pelas desigualdades (29.84)) 


Yy (pelas desigualdades (29.17). 


Corolário 29.9 


Seja x uma solução viável para um programa linear primal (A, b, c) e seja y uma solução viável para o programa linear 
dual correspondente. Se 


então, x e y são soluções ótimas para os programas lineares primal e dual, respectivamente. 


Prova Pelo Lema 29.8, o valor objetivo de uma solução viável para o primal não pode exceder o de uma solução 
viável para o dual. O programa linear primal é um problema de maximização, e o dual é um problema de minimização. 
Assim, se as soluções viáveis x e y têm o mesmo valor objetivo, nenhuma delas pode ser melhorada. 


Antes de provar que sempre existe uma solução dual cujo valor é igual ao de uma solução primal ótima, 
descreveremos como encontrar tal solução. Quando executamos o algoritmo simplex no programa linear em (29.53)- 
(29.57), a iteração final produziu a forma de folgas (29.72)-(29.75) com objetivo z = 28 - x,/6 - x,4/6 - 2x,5/3,B = (1, 
2,4) eN= (3,5, 6). Como veremos a seguir, a solução básica associada à forma de folgas final é de fato uma solução 
ótima para o programa linear; portanto, uma solução ótima para o programa linear (29.53)-(29.57) é = (8, 4, 0), com 
valor objetivo (3: 8) + (1: 9+(2: 0) = 28. Como também veremos a seguir, podemos ler uma solução dual ótima: 
os negativos dos coeficientes da função objetivo primal são os valores das variáveis duais. Mais precisamente, suponha 
que a última forma de folgas da primal seja 


= w E x 
ACE, 

x, = b'—s ax. paraieB. 
: y ] 


Então, para produzir uma solução dual ótima, definimos 


Da SMAVEN, 
0 otherwise. (29.91) 


Assim, uma solução ótima para o programa linear dual definido em (29.86)-(29.90) éy, = 0 (já quen + 1 =4 E 
B),y,=-c',= 1/6ey,=-c', = 2/3. Avaliando a função objetivo dual (29.86), obtemos um valor objetivo de (30 - 0) 
+ (24 - (1/6) + (36 : (2/3)) = 28, o que confirma que o valor objetivo do primal é de fato igual ao valor objetivo do 
dual. Combinando esses cálculos com o Lema 29.8, obtemos uma prova de que o valor objetivo ótimo do programa 
linear primal é 28. Agora, mostramos que essa abordagem se aplica em geral: podemos determinar uma solução ótima 
para o dual e simultaneamente provar que uma solução para o primal é ótima. 


Teorema 29.10 (Dualidade de programação linear) 


Suponha que SimpLex retorne valores x = (x,, X,, ..., X,) para o programa linear primal (4, b, c). Sejam N e B as 
variáveis não básicas e básicas para a forma de folgas final, seja c” a representação dos coeficientes na forma de folgas 
final e seja y = (Y,, Y» -.., Yn) definido pela equação (29.91). Então, x é uma solução ótima para o programa linear 
primal, y é uma solução ótima para o programa linear dual e 


n m 


Dm es bg. (29.92) 


Prova Pelo Corolário 29.9, se podemos determinar soluções viáveis x e N que satisfaçam a equação (29.92), 
então x e y devem ser soluções primal e dual ótimas. Agora, mostraremos que as soluções x e y descritas no enunciado 
do teorema satisfazem a equação (29.92). 

Suponha que executamos SimpLexem um programa linear primal, como dado nas linhas (29.16)-(29.18). O 
algoritmo prossegue por uma série de formas de folga até terminar com uma forma de folgas final com função objetivo 


z=0 +) cx. (29.93) 


Visto que SimrLex terminou com uma solução, pela condição na linha 3 sabemos que 


c;<0 para todo j E N. (29.94) 
Se definirmos 
c=0 para todo j E B, (29.95) 


podemos reescrever a equação (29.93) como 
Ze e W3: x, 
Je! 


= uv Bd ae (porque c', = O seje B) 
jet jJeD 


= PED. (porque Ne B=(1,2,..,n +m)). (29.96) 
j=1 


Para a solução básica x associada a essa forma de folgas final, x, = O para todo j & Nez=v”. Visto que todas as 
formas de folga são equivalentes, se avaliarmos a função objetivo original em x, devemos obter o mesmo valor objetivo, 
isto é, 


Dicx= v+5czx (29.97) 


Po) — ";j 


= 
= UA) em em 
jeN jeB 
= 0 +) (c::0) +53 (0:X) (29.98) 


jeN jeB 


Agora, mostraremos que Y, definido pela equação (29.91), é viável para o programa linear 
dual e que seu valor objetivo a (0 y,é iguala E 1X, - A equação (29.97) afirma que a primei- 
ra e a última formas de folga, avaliadas em x, são iguais. De modo mais geral, a equivalência de 


todas as formas de folga implica que, para qualquer conjunto de valores x = (x,,x,,..., x), temos 


n+m 


n 
a ce PEA 
j= j= 


Portanto, para qualquer conjunto de valores x = (x,, x,, ..., X,), temos 


pi 
= v'+Dcx 
Re; 
j=1 
= v'+SIcz + > Cx. 
A pj 
Far 
E PA? E AR 
j=1 i=1 


= 04,0% +45 (CT, (pelas equações (29.91) e (29.95) 
j=1 i=1 


= v'+ Sex, + S1C7, po — Sad (pela equação (29.32)) 
j=1 i=1 a! 


= V+Dc% SD by+DD (4X), 
j=1 i=1 


i=1 j=1 


E D+ -35b9, +55 (a, 7%, 
j=1 i=1 


j=1 i=1 
- [oa + Cc, + Bad, 
i=1 ju i=1 


de modo que 


n m 
DR, E ? =>, 
ja i=1 


Aplicando o Lema 29.3 à equação (29.99), obtemos 


He 


j=t 


c +Da, (29.99) 


v-Sby, = 0, (29.100) 


C, +43, = c paraj=1,2,..,n. (29.101) 


Pela equação (29.100), temos que Dm Dy,=v' e, consequentemente, o valor objetivo do 
dual Du ) b7,) é igual ao do primal (v”. Resta mostrar que a solução 1 é viável para o problema 
dual. Pelas desigualdades (29.94) e equação (29.95), temos que Cc; <Opara todoj=1,2,..,n+m. 
Assim, para qualquer 1 = 1,2,...,m, as equações (29.101) implicam que 


< 24], 


que satisfaz as restrições (29.84) do dual. Finalmente, visto que c'; < O para cada; & N U B, quando definimos de 
acordo com a equação (29.91), temos que cada y, > O e, assim, as restrições de não negatividade também são 
satisfeitas. 


Mostramos que, dado um programa linear viável, se Inrmiarize-SimpLex retorna uma solução viável e se SimpLex 
termina sem retornar “ilimitado”, a solução retornada é de fato uma solução ótima. Mostramos também como elaborar 
uma solução ótima para o programa linear dual. 


Exercícios 
29.4-1  Formul o dual do programa linear dado no Exercício 29.3-4. 
29.4-2 Suponha que temos um programa linear que não está na forma-padrão. Poderíamos produzir o dual primeiro 


convertendo-o para a forma-padrão e depois tomando o dual. Porém, seria mais conveniente poder produzir 
o dual diretamente. Explique como podemos tomar o dual diretamente de um programa linear arbitrário. 


29.4-3 Escreva o dual do programa linear de fluxo máximo, como dado nas linhas (29.47)- (29.50). Explique como 
interpretar essa formulação como um problema de corte mínimo. 


29.4-4 Escreva o dual do programa linear de fluxo de custo mínimo, como dado nas linhas (29.51)-(29.55). Explique 
como interpretar esse problema em termos de grafos e fluxos. 


29.4-5 Mostre que o dual do dual de um programa linear é o programa linear primal. 


29.4-6 Qualresultado do Capítulo 26 pode ser mnterpretado como dualidade fraca para o problema de fluxo máximo? 


29.5 A soLUÇÃO BÁSICA VIÁVEL INICIAL 


Nesta seção, primeiro descrevemos como testar se um programa linear é viável e, se for, como produzir uma forma 
de folgas para a qual a solução básica seja viável. Concluímos provando o teorema fundamental de programação linear, 
que afirma que o procedimento SimpLex sempre produz o resultado correto. 


Determinando uma solução inicial 


Na Seção 29.3, admitimos que tínhamos um procedimento InrmaLize-SimpLex que determina se um programa linear 
tem soluções viáveis e, se tiver, dá uma forma de folgas para a qual a solução básica é viável. Descrevemos esse 
procedimento aqui. 

Um programa linear pode ser viável e, apesar disso, a solução básica inicial pode não ser viável. Por exemplo, 
considere o seguinte programa linear: 


maximizar = (29.102) 
sujeito a 

dE dd É (29.103) 

à = É =a (29.104) 

dra = 40 (29.105) 


Se tivéssemos de converter esse programa linear para forma de folgas, a solução básica definia x, = O e x, = 0. 
Essa solução infringe a restrição (29.104) e, portanto, não é uma solução viável. Assim, InrmiaLize-SimpLexnão pode 
simplesmente retornar a forma de folgas óbvia. Para determinar se um programa linear tem quaisquer soluções viáveis, 
formularemos um programa linear auxiliar. Por esse programa linear auxiliar, podemos determinar (com um pouco 
de trabalho) uma forma de folgas para a qual a solução básica seja viável. Além disso, a solução desse programa linear 


auxiliar determina se o programa linear inicial é viável e, se for, dará uma solução viável com a qual poderemos inicializar 


SIMPLEX. 


Lema 29.11 


Seja L um programa linear na forma-padrão, dado como em (29.16)-(29.18). Seja x, uma nova variável e seja LO 
seguinte programa linear com n + 1 variáveis: 


maximizar “ds (29.106) 
sujeito a 
AX, —% <ob parai=1,2,..,m, (29.107) 
j=1 
x, > 0 para j=0,1,...,n. (29.108) 
Então, L é viável se e somente se o valor objetivo ótimo de La é 0. 
Prova Suponha que L tenha uma solução viável x = (x,, x,, ..., x,). Então, a solução x, = O combinada com x é uma 


solução viável para L,,, com valor objetivo 0. Visto que x, > O é uma restrição de Le a função objetivo é para 
maximizar -x,, essa solução deve ser ótima para L,.. Ao contrário, suponha que o valor objetivo ótimo de L,.. seja 0. 


Então, x, = 0, e os valores das soluções restantes satisfazem as restrições de L. 


aux 


Agora, descrevemos nossa estratégia para determinar uma solução básica inicial viável para um programa linear L 
em forma-padrão: 


INITIALIZE-SIMPLEX(A, D,C) 


1 seja k o índice do mínimo b, 

2 ifb,>0 /l a solução básica inicial é viável? 

3 return ((1,2,...,n),tn+1,n+2,...,n+m),4,b,c,0) 

4 formar L | by acrescentando —x, ao lado esquerdo de cada restrição e definindo 
a função objetivo como —x, 

5 seja (N,B,A, b, c, v) a forma de folgas resultante para L, |. 

6 l=n+k 

7 ML. temn + 1 variáveis não básicas e m variáveis básicas 

8 (N,B,4,b,c,v) = Prvor(N,B,4,b,c,v,1,0) 

9 /! A solução básica agora é viável para L |. 

10 iterar o laço while das linhas 3-12 de SrmpLEX até encontrar uma solução ótima 


para L | é encontrado 


aux 


nu if a solução ótima para L | define x, como O 


12 if x, é básica 
13 execute um pivô (degenerado) para transformá-la em não básica 
14 na forma de folgas final de L |, eliminar x, das restrições e restaurar a função 


objetivo original de L, mas substituir cada variável básica nessa 
função objetivo pelo lado direito da sua restrição associada 

15 return a forma de folgas final modificada 

16 | else return “inviável” 


InriaLize-SimpLEx funciona da maneira descrita a seguir. Nas linhas 1-3, testamos implicitamente a solução básica 
para a forma de folgas inicial para L dada por N = (1,2,...,ny,B=fn+1,n+2,..,n+m),x,=b, paratodoi E B 
ex;=0 paratodoj & N. (Criar a forma de folgas não requer nenhum esforço explícito, já que os valores de 4, b e c 
são os mesmos na forma de folgas e também na forma-padrão.) Se a linha 2 determinar que essa solução básica é 
viável — isto é, x,> 0 paratodoi E NU B—, então a linha 3 retornará a forma de folgas. Caso contrário, na linha 4, 
formamos o programa linear auxiliar L, como no Lema 29.11. Visto que a solução básica inicial para L não é viável, a 


solução básica inicial para a forma de folgas correspondente a L, . também não é viável. Para encontrar uma solução 
básica viável, executamos uma única operação de pivô. A linha 6 seleciona / = n + k como o índice da variável básica 
que será a variável de saída na operação de pivô que será realizada. Visto que as variáveis básicas são x HI, x +2,..., 
xt, a variável de saída x, será aquela que tiver o maior valor negativo. A linha 8 executa aquela chamada de Pivor, 
com x, entrando e x, saindo. Em breve veremos que a solução básica resultante dessa chamada de Pivor será viável. 
Agora, que temos uma forma de folgas para a qual a solução básica é viável, podemos, na linha 10, chamar 
repetidamente Prvor para resolver completamente o programa linear auxiliar. Como o teste da linha 11 demonstra, se 
encontrarmos uma solução ótima para L, com valor objetivo 0, então nas linhas 12-14 criaremos uma forma de folgas 
para L para a qual a solução básica é viável. Para tal, em primeiro lugar, nas linhas 12-13, tratamos o caso degenerado 
no qual x, ainda pode ser básica com valor x, = 0. Nesse caso, executamos uma etapa de pivô para eliminar x, da base 
usando qualquer e &E N tal que açe £ O como a variável de entrada. A nova solução básica permanece viável; o pivô 
degenerado não muda o valor de nenhuma das variáveis. Em seguida, eliminamos todos os termos x, das restrições e 
restauramos a função objetivo original para L. A função objetivo original pode conter variáveis básicas e não básicas. 
Portanto, na função objetivo substituímos cada variável básica pelo lado direito de sua restrição associada. Depois a 
linha 15 devolve essa forma de folgas modificada. Se, por outro lado, a linha 11 descobre que o programa linear original 
L é inviável, a linha 16 devolve essa informação. 

Agora demonstramos o funcionamento de InrmaLize-Simprex no programa linear (29.102)- (29.105). Esse programa 
linear é viável se pudermos determinar valores não negativos para x, e x, que satisfaçam as desigualdades (29.103) e 
(29.104). Pelo Lema 29.11, formulamos o programa linear auxiliar 


maximizar = (29.109) 
sujeito a 
De GS Ma. E 2 (29.110) 
Hi de % S =8 (29.111) 
» MRE RA > 0. 


Pelo Lema 29.11, se o valor objetivo ótimo desse programa linear auxiliar for 0, o programa linear original terá uma 
solução viável. Se o valor objetivo ótimo desse programa linear auxiliar for negativo, o programa linear original não terá 
uma solução viável. 

Escrevemos esse programa linear na forma de folgas obtendo 


A re da X, 
=> £=->2 bt E 
= rd FM 


Ainda não estamos fora de perigo porque a solução básica, que definiria x, = -4, não é viável para esse programa 
linear auxiliar. Contudo, com uma chamada a PIVOT, podemos converter essa forma de folgas em uma forma na qual a 
solução básica seja viável. Como a linha 8 indica, escolhemos x, como a variável de entrada. Na linha 6, escolhemos 
como variável de saída x,, que é a variável básica cujo valor na solução básica é o mais negativo. Depois de pivotar, 
temos a forma de folgas 


Z = 4 — 5X, aee — 
= Add dt & 
Z = 6 — x — 4x + x 


A solução básica associada é (xy, X, X,, X3, X4) = (4, 0, 0, 6, 0), que é viável Agora chamamos Pivor 
repetidamente até obtermos uma solução ótima para L, .. Nesse caso, uma chamada a Pivor com x, entrando e x, 
saindo produz 


Z = = 
5 5 5 5 

XY — da a mi 2x, + Pa 
E 5 5 5 5 


Essa forma de folgas é a solução final para o problema auxiliar. Visto que essa solução tem x, = 0, sabemos que 
nosso problema inicial era viável. Além disso, visto que x, = 0, podemos simplesmente removê-la do conjunto de 
restrições. Então restauramos a função objetivo original, com substituições apropriadas feitas para incluir somente 
variáveis não básicas. Em nosso exemplo, obtemos a função objetivo 


A mo RR kl 
EM =, = 2x, — E DE jp A 
a 5 a 5 


Definindo x, = O e simplificando, obtemos a função objetivo 


É 7a 
a a 


e a forma de folgas 


NO 
So 
e 


o) > 
o, &% 
> 3 
X 
to — Os e sp ms 
ç > a 


Essa forma de folgas tem uma solução básica viável, e podemos retorná-la ao procedimento SimpLex. 
Agora, mostramos formalmente a correção de InmaLize-SimpLex. 


Lema 29.12 


Se um programa linear L não tem nenhuma solução viável, então InrmaLize-SimpLex retorna “inviável”. Caso contrário, 
retorna uma forma de folgas válida para a qual a solução básica é viável. 


Prova Primeiro suponha que o programa linear L não tenha nenhuma solução viável. Então, 
pelo Lema 29.11, o valor objetivo ótimo de L |, definido em (29.106) — (29.108) é não nulo e, 
pela restrição de não negatividade para x,,o valor ótimo objetivo deve ser negativo. Além dis- 
so, esse valor objetivo deve ser finito, já que definir x, = O, parai = 1,2,..,nex,= min” 1b) 
é viável, e essa solução tem valor objetivo — min”, (b,) Portanto, a linha 10 de INITIALIZE- 
-SIMPLEX encontra uma solução com um valor objetivo não positivo. Seja x a solução básica 
associada à forma de folgas final. Não podemos ter x, = 0, porque L | teria valor objetivo 0,0 


que contradiz que o valor objetivo é negativo. Assim, o teste na linha 11 resulta no retorno de “inviável” na linha 16. 

Agora, suponha que o programa linear L tenha uma solução viável. Pelo Exercício 29.3-4, sabemos que, se b,> O 
para i=1,2,..., m, então a solução básica associada à forma de folgas inicial é viável. Nesse caso, as linhas 2-3 
retornam a forma de folgas associada à entrada. (Converter a forma-padrão para a forma de folgas é fácil, já que 4, b e 
c são as mesmas em ambas.) 

No restante da prova, tratamos o caso no qual o programa linear é viável, mas não retornamos na linha 3. 


Demonstramos que, nesse caso, as linhas 4-10 encontram uma solução viável para L, |. com valor objetivo 0. Primeiro, 
pelas linhas 1-2, devemos ter 


b,<O 
e 


b,<b,paracadaie B. (29.112) 


Na linha 8, executamos uma operação de pivô na quala variável de saída x, (lembre-se de que /= n = k, de modo 
que b,< 0) é o lado esquerdo da equação com b, mínimo, e a variável de entrada é x,, a variável extra adicionada. 
Agora mostramos que, depois desse pivô, todas as entradas de b são não negativas e, consequentemente, a solução 


básica para L,,, é viável. Fazendo x a solução básica depois da chamada a Pivor e sendo b” e B” valores retornados por 
Prvor, O Lema 29.1 implica que 


-ab sieB-le 

z- b-ab Gi E (e) (29.113) 
à b, / a, sei=e 

A chamada a Pivorna linha 8 tem e = 0. Se reescrevermos as desigualdades (29.107) para incluir coeficientes a,º, 


Pode <b, parai=1,2,..,m (29.114) 


j=0 
então. 


Ao=4,=—1 para cada ie B. (29.115) 


te 


(Observe que a,º é o coeficiente de x, tal como ele aparece em (29.114), e não a negação do coeficiente porque 
Lx está na forma-padrão em vez de estar na forma de folgas.) Visto que / & B, também temos que a, = -1. Assim, 
b/a,.> 0 e, portanto, x,> O. Para as variáveis básicas restantes, temos 


X, = RR b, (pela equação (29.113)) 
= b-akb/a,) (pela linha 3 de Prvor) 
= b,— b, (pela equação (29.115) ea, = —1) 
> 0 (pela desigualdade (29.112), 


que implica que cada variável básica é agora não negativa. Consequentemente, a solução básica depois da chamada a 
Pivorna linha 8 é viável. Em seguida, executamos a linha 10, o que resolve L, .. Visto que consideramos que L tem uma 
solução viável, o Lema 29.11 implica que L, | tem uma solução ótima com valor objetivo 0. Considerando que todas as 
formas de folga são equivalentes, a solução básica final para L, | deve ter x,= O e, depois de eliminar x, do programa 
linear, obtemos uma forma de folgas que é viável para L. Então, a linha 15 retorna essa forma de folgas. 


Teorema fundamental de programação linear 


Concluímos este capítulo mostrando que o procedimento Simprex funciona. Em particular, qualquer programa linear 
é inviável, ilimitado ou tem uma solução ótima com um valor objetivo finito. Em cada caso, SimpLex age adequadamente. 


Teorema 29.13 (Teorema fundamental de programação linear) 


Qualquer programa linear L, dado na forma-padrão, 


1. tem uma solução ótima com um valor objetivo finito, 
2. inviável 
ER ou é ilimitado. 
Se L é inviável, Simprex retorna “inviável”. Se L é ilimitado, SimpLex retorna “ilimitado”. Caso contrário, SimpLex 
retorna uma solução ótima com um valor objetivo finito. 


Prova Pelo Lema 29.12, se o programa linear Z é inviável, SimpLex retorna “inviável”. Agora, suponha que o programa 
linear L seja viável. Pelo Lema 29.12, InrmaLize-SimpLex retorna uma forma de folgas para a qual a solução básica é 
viável. Portanto, pelo Lema 29.7, Simprex retorna “ilimitado” ou termina com uma solução viável. Se terminar com uma 
solução finita, o Teorema 29.10 nos diz que essa solução é ótima. Por outro lado, se SimpLex retorna “ilimitado”, o Lema 
29.2 nos diz que o programa linear Z é realmente ilimitado. Visto que SimpLex sempre termina de um desses modos, a 
prova está completa. 


Exercícios 


29.5-1 Dê pseudocódigo detalhado para implementar as linhas 5 e 14 de InmaLize-Simprex. 


29.5-2 Mostre que, quando o laço principal de SimpLex é executado por InmaLize-SimpLex, O procedimento nunca pode 
retornar “ilimitado”. 


29.5-3 Suponha que temos um programa linear L na forma-padrão e que para L e o dual de L as soluções básicas 
associadas às formas de folga iniciais sejam viáveis. Mostre que o valor objetivo ótimo de L é 0. 


29.5-4 Suponha que permitimos desigualdades estrítas em um programa linear. Mostre que, nesse caso, o teorema 
fundamental de programação linear não é válido. 


29.5-5 Resolva o seguinte programa linear usando Simprex: 


maximizar do SF SE 


2 
sujeito a 
do — & É 
e df É 
= dx, < 
é > 


29.5-6 Resolva o seguinte programa linear usando Simprex: 


maximizar do = 2h 
sujeito a 
É dt Mm E 
2 e x É 
*% É 
Dad; > 
29.5-7 Resolva o seguinte programa linear usando Simprex: 
maximizar X dd SM 
sujeito a 
= do dA. É 
= = d E 
ds de di A 
» a 


29.5-8 Resolva o programa linear dado em (29.6)-(29.10). 


= 12 


29.5-9 Considere o seguinte programa linear de uma variável que denominamos P: 


maximizar tx 


sujeito a 


x & O, 
onde 7, s e f são números reais arbitrários. Seja D o dual de P. 


Diga para quais valores de r, s e t você pode afirmar que 


1. Pe D'têmsoluções ótimas com valores objetivos finitos. 
2. Pé viável, mas D é inviável. 
3. Dé viável, mas P é inviável. 


4. NemP nem Dé viável 


Problemas 


29-1 Viabilidade de desigualdade linear 


Dado um conjunto de m desigualdades lineares com n variáveis x ,, x», ..., X,, O problema de viabilidade de 
desigualdades lineares pergunta se existe uma configuração das variáveis que satisfaça simultaneamente 
cada uma das desigualdades. 


a. Mostre que, se tivermos um algoritmo para programação linear, podemos usá-lo para resolver o 
problema de viabilidade de desigualdades lineares. O número de variáveis e restrições que você usar no 
problema de programação linear deve ser polinomial em n e m. 


b. Mostre que, se tivermos um algoritmo para problema de viabilidade de desigualdades lineares, podemos 
usá-lo para resolver um problema de programação linear. O número de variáveis e desigualdades lineares 
que você usar no problema de viabilidade de desigualdades lineares deve ser polinomial em n e m, 
número de variáveis e restrições no programa linear. 


29-2 Folgas complementares 


Folgas complementares descreve uma relação entre os valores de variáveis primais e restrições duais e entre 
os valores de variáveis duais e restrições primais. Seja x uma solução ótima para o programa linear primal 
dado em (29.16)-(29.18) e seja y uma solução viável para o programa linear dual dado em (29.83)-(29.85). 
As folgas complementares dizem que as seguintes condições são necessárias e suficientes para x e y serem 
ótimas: 

m 


Day, =€, oux, = () paia [= 1,2, 
A | 


m 
a =c, ouy — 0 para i = 1,2,...,m. 
i= 


a. Verifique se as folgas complementares são válidas para o programa linear nas linhas (29.53)-(29.57). 


b. Prove que as folgas complementares são válidas para qualquer programa linear primal e seu dual 
correspondente. 


c. Prove que uma solução viável para um programa linear primal dado nas linhas 
(29.16) — (29.18) é Ótima se e somente se existem valores y = (y,,Y,...., Y,,) tais que 


1. y é uma solução viável para o programa linear dual dado em (29.83) — (29.85), 


m 


2. > ;,=0, para todo jtal que% > 0e 


3. y,=0Oparatodoitalque > ax <b. 


29-3 


29-4 


29-5 


Programação linear inteira 


Um problema de programação linear inteira é um problema de programação linear que tem a seguinte 
restrição adicional: as variáveis x devem ter valores inteiros. O Exercício 34.5-3 mostra que apenas 
determinar se um programa linear inteiro tem uma solução viável já é NP-drficil, o que significa que não há um 
algoritmo de tempo polinomial conhecido para esse problema. 


a. Mostre que a dualidade fraca (Lema 29.8) é válida para um programa linear inteiro. 
b. Mostre que a dualidade (Teorema 29.10) nem sempre é válida para um programa linear inteiro. 


c. Dado um programa linear primal na forma-padrão, vamos definir P como o valor objetivo ótimo para o 
programa linear primal, D como o valor objetivo ótimo para seu dual, 7P como o valor objetivo ótimo 
para a versão inteira do primal (isto é, o primal com a restrição adicional de as variáveis terem valores 
inteiros) e /D como o valor objetivo ótimo para a versão com inteiros do dual. Mostre que 


IP<P=D<ID. 
Lema de Farkas 


Seja 4 uma matriz m x n e c um n- vetor. Então, o lema de Farkas afirma que exatamente um dos sistemas 
IP<P=D<ID. 
é solúvel, onde x é um n-vetor e y é um m-vetor. Prove o lema de Farkas. 


Circulação de custo mínimo 


Neste problema, consideramos uma variante do problema de fluxo de custo mínimo da Seção 29.2 no qual 
não temos nem uma demanda nem uma fonte, nem um sorvedouro. Em vez disso temos, como antes, uma 
rede de fluxo e custos de aresta a(u, v). Um fluxo é viável se satisfaz a restrição de capacidade em todas as 
arestas e de conservação de fluxo em todos os vértices. A meta desse problema é determinar, entre todos os 
fluxos possíveis, o que tem o menor custo, e o denominamos problema da circulação de menor custo. 


a. Formulk o problema da circulação de menor custo como um programa linear. 


b. Suponha que, para todas as arestas (u, v) E E, tenhamos a(u, v) > O. Caracterize uma solução ótima 
para o problema da circulação de menor custo. 


c. Formuk o problema de fluxo máximo como um programa linear para o problema de circulação de custo 
mínimo. Isto é, dada uma instância de problema de custo máximo G = (V, E) com fonte s, sorvedouro t e 
capacidades de arestas c, crie um problema de circulação de custo mínimo dando uma rede G'=(V", E” 
(possivelmente diferente) com capacidades de arestas c "e custos de arestas a "tal que você possa obter 


uma solução para o problema de fluxo máximo a partir de uma solução para o problema de circulação de 
custo mínimo. 


d. Formuk o problema de caminho mínimo de fonte única como um um problema de circulação de custo 


NorTas DO CAPÍTULO 


Este capítulo só inicia o estudo do amplo campo da programação linear. Vários livros se dedicam exclusivamente à 
programação linear, inclusive os de Chvátal [69], Gass [130], Karloff [197], Schrijver [303] e Vanderbei [344]. Muitos 
outros livros apresentam uma ampla abordagem da programação linear, entre eles os de Papadimitriou e Steiglitz [271] 
e Ahuja, Magnanti e Orlin [7]. A abordagem deste capítulo se baseia na adotada por Chvátal. 

O algoritmo simplex para programação linear foi mventado por G. Dantzig em 1947. Logo depois, pesquisadores 
descobriram como formular vários problemas em diversas áreas como programas lineares e a resolvê-los com o 
algoritmo simplex. O resultado é que as aplicações da programação linear floresceram, assim como vários algoritmos. 
Variantes do algoritmo simplex continuam a ser os métodos mais populares para resolver problemas de programação 
linear. Essa história aparece em vários lugares, inclusive nas notas em [69] e [197]. 

O algoritmo dos elipsoides foi o primeiro algoritmo de tempo polinomial para programação linear e se deve a L. G. 
Khachian em 1979; ele se baseou em trabalho anterior de N. Z. Shor, D. B. Judin e A. S. Nemirovski. Grôtschel, 
Lovász e Schrijver [154] descrevem como usar o algoritmo dos elipsoides para resolver uma variedade de problemas 
de otimização combinatória. Até agora, parece que o algoritmo dos elipsoides não compete com o algoritmo simplex na 
prática. O artigo de Karmarkar [198] inclui uma descrição do primeiro algoritmo de pontos interiores. Muitos 
pesquisadores depois dele projetaram algoritmos de pontos interiores. Boas resenhas aparecem no artigo de Goldfarb e 
Todd [141] e no livro de Ye [361]. 

A análise do algoritmo simplex continua sendo uma área ativa de pesquisa. V. Klee e G. J. Minty construíram um 
exemplo no qual o algoritmo simplex executa 2, - 1 iterações. O algoritmo simplex, normalmente funciona muito bem na 
prática, e muitos pesquisadores tentaram dar justificativa teórica para essa observação empírica. Uma linha de pesquisa 
iniciada por K. H. Borgwardt e seguida por muitos outros mostra que, sob certas hipóteses probabilísticas em relação à 
entrada, o algoritmo simplex converge em tempo polinomial esperado. Spielman e Teng [322] fizeram progresso nessa 
área apresentando a “análise suavizada de algoritmos” e aplicando-a ao algoritmo simplex. 

O algoritmo simplex é conhecido por funcionar eficientemente em certos casos especiais. Particularmente digno de 
nota é o algoritmo simplex de rede, que é o algoritmo simplex especializado para problemas de rede de fluxo. Para 
certos problemas de rede, inclusive os problemas de caminhos mínimos, fluxo máximo e fluxo de custo mínimo, 
variantes do algoritmo simplex em rede são executadas em tempo polinomial. Consulte, por exemplo, o artigo de Orlin 
[268] e as citações ali contidas. 


1 Uma definição intuitiva de região convexa é que ela cumpre o seguinte requisito: para quaisquer dois pontos na região, todos os 
pontos sobre um segmento de reta entre eles também estão na região. 
*N. do RT: esse uso do termo simplex está em desacordo comtoda a literatura, entretanto mantivemos a terminologia dos autores. 


PoLinômiosEA FF T 


O método direto para somar dois polinômios de grau n demora o tempo O(n), mas o método direto para 
multiplicá-los demora o tempo O(n,). Neste capítulo, mostraremos como a transformada rápida de Fourier (FFT - Fast 
Fourier Transform) pode reduzir o tempo para multiplicar polinômios a O(n lg nn). 

O uso mais comum das transformadas de Fourier, e consequentemente da FFT, é no processamento de sinais. Um 
sinal é dado no domínio do tempo: como uma finção que mapeia tempo para amplitude. A análise de Fourier nos 
permite expressar o sinal como uma soma ponderada de senoides defasadas de frequências variáveis. Os pesos e fases 
associados às frequências caracterizam o sinal no domínio da frequência. Entre as muitas aplicações corriqueiras da 
FFT estão as técnicas de compressão utilizadas para codificar informações digitais de vídeo e áudio, incluindo arquivos 
MP3. Vários livros de boa qualidade pesquisam a fundo a rica área de processamento de sinais; as notas do capítulo 
citam alguns deles. 


Polinômios 


Um polinômio na variável x em um corpo algébrico F representa uma função 4(x) como uma soma formal: 


n—1 
o J 
fixa ) EX. 
J 
j=0 
Denominamos os valores ap, à,, ..., a,- ! coeficientes do polinômio. Os coeficientes são extraídos de um corpo F, 


normalmente o conjunto de números complexos. Um polinômio A(x) tem grau k se este é o maior coeficiente não 
nulo. Qualquer inteiro estritamente maior que o grau de um polinômio é um limite do grau desse polinômio. Portanto, 
o grau de um polinômio de grau limitado por n pode ser qualquer inteiro entre O e n - 1, inclusive. 

Podemos definir uma variedade de operações com polinômios. No caso da adição de polinômios, se A(x) e B(x) 
são polinômios de grau limitado por n, sua soma é um polinômio C(x), também de grau limitado por n, tal que C(x) = 
A(x) + B(x) para todo x no corpo. Isto é, se 


então 


onde c, = a; + b; para j = 0, 1,...,n - 1. Por exemplo, se tivermos os polinômios A(x) = 6x + 7x, - 10x + 9 e B(x) = 
-2x, + 4x - 5, então C(x) = 4x, + 7x, - 6x +4. 

No caso da multiplicação de polinômios, se A(x) e B(x) são polinômios de grau limitado por n, seu produto 
C(x) é um polinômio de grau limitado por 2n - 1 tal que C(x) = A(x)B(x) para todo x no corpo. É provável que você já 
tenha multiplicado polinômios multiplicando cada termo em A(x) por cada termo em B(x) e combinando termos com 
potências iguais. Por exemplo, podemos multiplicar A(x) = 6x, + 7x, - 10x + 9 e B(x) = -2x, + 4x - 5 da seguinte 
maneira: 


be + 7 = lhe + 9 
- Dx? ado ps 5 


as RO = DS” Gy = 48 
dx” L 987" — do 4 36% 
e Tg e Tio + Da” = 1Bxo 


TDR mm Ti dd” =D” = 75%” BE — 45 


Outro modo de expressar o produto C(x) é 

C(y) = Sica, (30.1) 
onde 

Cc, = ab (30.2) 


Observe que grau(C) = grau(4) + grau(B), implicando que, se 4 é um polinômio de grau limitado por n, e B é um 
polinômio de grau limitado por n,, então C é um polinômio de grau limitado por n, + n,- 1. Visto que um polinômio de 
grau limitado por k é também um polinômio de grau limitado a k + 1, normalmente diremos que o produto de 
polinômios € é um polinômio de grau limitado por n, + n,. 


Esboço do capítulo 


A Seção 30.1 apresenta dois modos de representar polinômios: a representação por coeficientes e a representação 
por pares ponto-valor. Os métodos diretos para multiplicar polinômios — equações (30.1) e (30.2) — demoram o 


tempo Q(n,) quando representamos polinômios na forma de coeficientes, mas apenas o tempo Q(n) quando os 
representamos na forma de pares ponto-valor. Porém, usando a representação por coeficientes, a multiplicação de 
polinômios demorará somente o tempo Q(n lg n) se fizermos a conversão entre as duas representações. Para verificar 
por que essa abordagem funciona, primeiro temos de estudar raízes complexas da unidade, o que fazemos na Seção 
30.2. Em seguida, usamos a FFT e sua inversa, também descrita na Seção 30.2, para efetuar as conversões. A Seção 
30.3 mostra como implementar a FFT rapidamente em modelos seriais, bem como paralelos. 

Este capítulo usa números complexos extensivamente, e o símbolo i será usado exclusivamente para denotar V—1. 


30.1 REPRESENTAÇÃO DE POLINÔMIOS 


As representações de polinômios por coeficientes e por pares ponto-valor são, em certo sentido, equivalentes; isto 
é, um polinômio na forma de pares ponto-valor tem uma contraparte exclusiva na forma de coeficientes. Nesta seção, 
apresentamos as duas representações e mostramos como combiná-las de modo a multiplicar dois polinômios de grau 
limitado a n no tempo Q(n lg nn). 


Representação por coeficientes 


EL ad 
Uma representação por coeficientes de um polinômio A(x) = A jo?" de grau limitado a n é um vetor de 
coeficientes a = (ay, 4, ..., à, - 1). Nas equações matriciais deste capítulo, em geral trataremos vetores como vetores 
coluna. 
A representação por coeficientes é conveniente para certas operações com polinômios. Por exemplo, a operação 
de avaliar o polinômio 4(x) em um determinado ponto x, consiste em calcular o valor de A(x,). Podemos avaliar um 


polinômio no tempo O(n) usando a regra de Horner: 
Al) = a, + xa, + xa, + + xa» + AA, )) 0) 


De modo semelhante, somar dois polinômios representados pelos vetores de coeficientes a = (a, a,, ...,a,- 1)eb 
= (bo by ..., b, - 1) demora o tempo Q(n): simplesmente produzimos o vetor de coeficientes c = (cy, Cj ..., C - 1), 
onde cja+ b, paraj=0,1,..,n-1. 

Agora, considere multiplicar dois polinômios de grau limitado a n, A(x) e B(x), representados na forma de 
coeficientes. Se usarmos o método descrito pelas equações (30.1) e (30.2), a multiplicação de polinômios demorará o 
tempo Q(n,), já que temos de multiplicar cada coeficiente no vetor a por cada coeficiente no vetor b. A operação de 
multiplicar polinômios em forma de coeficientes parece ser consideravelmente mais dificil que a de avaliar um polinômio 
ou somar dois polinômios. O vetor de coeficientes c resultante, dado pela equação (30.2), é também denominado 
convolução dos vetores de entrada a e b, denotada por c = a € b. Visto que multiplicar polinômios e calcular 
convoluções são problemas computacionais fundamentais de considerável importância prática, este capítulo se 
concentra em algoritmos eficientes para essas operações. 


Representação por pares ponto-valor 


Uma representação por pares ponto-valor de um polinômio A(x) de grau limitado a n é um conjunto de n pares 
ponto-valor 


(tas Vo)» (ks Yo). ORE (x, 72 Dt h) 
tal que todos os valores x, são distintos e 


w= A(x) (30.3) 


para k = 0, 1,...,n - 1. Um polinômio tem muitas representações por pares ponto-valor diferentes, já que podemos 


usar qualquer conjunto de n pontos distintos x,, x,, ..., x, - ! como base para a representação. 
Calcular uma representação por pares ponto-valor para um dado polinômio na forma por coeficientes é em 
princípio direto, já que tudo o que temos de fazer é selecionar n pontos distintos x,, x,, ..., x," !, e então avaliar A(x,) 


para k = 0, 1,...n - 1. Como método de Horner, avaliar um polinômio em n pontos demora o tempo Q(n,). Mais 
adiante veremos que, se escolhermos x, inteligentemente, podemos acelerar essa operação e conseguir tempo de 
execução Q(n lg n1). 

O inverso da avaliação — determinar a forma por coeficientes de um polinômio partindo de uma representação 
por pares ponto-valor — é a interpolação. O teorema a seguir mostra que a interpolação é bem definida quando o 
polinômio interpolador desejado deve ser um polinômio de grau limitado igual ao número dado de pares ponto-valor. 


Teorema 30.1 (Unicidade de um polinômio interpolador) 


Para qualquer conjunto ((x 9, Yo), (x, Yp) -..» (0,7 1, Y," 1)y de n pares ponto-valor tal que todos os valores x, são 
distintos, existe um polinômio único A(x) de grau limitado por n tal que y = A(x,) parak = 0,1,...,n-1. 


Prova A prova é baseada na existência da inversa de certa matriz. A equação (30.3) é equivalente à equação matricial 


, a Ee an—1 
1 %o %o Xo dio Yo 
e al a an—l 
a a RR] (30.4) 
A sal EM n—l 
1 da Aa Aa A. Ya 
A matriz no lado esquerdo é denotada por Ví(x,, x,, ..., x,- 1!) e é conhecida como matriz de Vandermonde. Pelo 


Problema D-1, essa matriz tem determinante 


[| (x, a » 


O<j<k<n—l 


e, portanto, pelo Teorema D.5, ela é inversível (isto é, não singular) se os x, são distintos. Assim, podemos resolver 
para os coeficientes a, unicamente, dada a representação por pares ponto-valor: 


q= Es ya seg CA 


A prova do Teorema 30.1 descreve um algoritmo para interpolação baseado na solução do conjunto (30.4) de 
equações lineares. Usando os algoritmos de decomposição LU do Capítulo 28, podemos resolver essas equações no 
tempo O(n,). 

Um algoritmo mais rápido para interpolação de n pontos se baseia na fórmula de Lagrange: 


[t,-=*) (30.5) 


Seria interessante verificar que o lado direito da equação (30.5) é um polinômio de grau limitado por n que satisfaz 
A(x,) = y, para todo k. O Exercício 30.1-5 pede que você mostre como calcular os coeficientes de 4 no tempo O(n,) 
usando a fórmula de Lagrange. 


Assim, avaliação e interpolação de n pontos são operações inversas bem definidas que transformam a 
representação de um polinômio por coeficientes em uma representação por pares ponto-valor e vice-versa. 1 Os 
algoritmos já descritos para esses problemas demoram o tempo Q(n,). 

A representação por pares ponto-valor é bastante conveniente para muitas operações com polinômios. No caso da 
adição, se C(x) = A(x) + B(x), então C(x,) = A(x, + B(x,) para qualquer ponto x,. Mais precisamente, se temos uma 
representação por pares ponto-valor para 4, 


(Oto Vad VE raias DE cad) à 


e, para B, 


(Do, Vo)» (x, x), “a (Xp Y4:1)) 


(observe que 4 e B são avaliados nos mesmos n pontos), então uma representação por pares ponto-valor para C é 
(os Vo + Vo) (Or by HU Do ces Mrs Ya E Va) 


Assim, o tempo para somar dois polinômios de grau limitado a n na forma com pares ponto-valor é Q(n). 

De modo semelhante, a representação por pares ponto-valor é conveniente para multiplicar polinômios. Se C(x) = 
A(x)B(x), então C(x,) = A(x )B(x,) para qualquer ponto x,, e podemos multiplicar ponto a ponto uma representação 
por pares ponto-valor para 4 por uma representação por pares ponto-valor para B para obter uma representação por 
pares ponto-valor para C. Contudo, temos de encarar o seguinte problema: grau (C) = grau(A) + grau(B); se 4 e B são 
polinômios de grau limitado por n, então C é um polinômios de grau limitado por 2n. Uma representação-padrão por 
pares ponto-valor para 4 e B consiste em n pares ponto-valor para cada polinômio. Quando nós os multiplicamos, 
obtemos n pares ponto-valor, mas precisamos de 2n pares para interpolar um polinômio único c de grau limitado por 
2n (veja o Exercício 30.1-4). Portanto, devemos começar com representações por pares ponto-valor “estendidas” para 
A e B, consistindo em 2n pares ponto-valor cada uma. Dada uma representação por pares ponto-valor estendida para 
4, 


(x se Vo (Mio Modo seo (X Dt Dal i 


e uma representação por pares ponto-valor estendida correspondente para B, 


(Mg Yo)» (x, 4, ), e. » (x hoy 1 Yom 1 ; 


então uma representação por pares ponto-valor para C é 


(Dos Vos Vo D» Cego Vir Vi Do ces Dog oa Yano Yom bo 


Dados dois polinômios de entrada na forma com pares ponto-valor estendida, vemos que o tempo para multiplicá-los 
de modo a obter a forma com pares ponto-valor do resultado é Q(n), muito menor que o tempo requerido para 
multiplicar polinômios na forma com coeficientes. 

Finalmente, consideramos como avaliar um polinômio dado na forma com pares ponto-valor em um novo ponto. 
Para esse problema, não conhecemos nenhuma abordagem mais simples que converter o polinômio primeiro para a 
forma com coeficientes e depois avaliá-lo no novo ponto. 


Multiplicação rápida de polinômios na forma com coeficientes 


Podemos usar o método de multiplicação em tempo linear para polinômios na forma com pares ponto-valor para 
acelerar a multiplicação de polinômios na forma com coeficientes? A resposta depende de podermos ou não converter 
um polinômio rapidamente da forma com coeficientes para a forma com pares ponto-valor (avaliar) e vice-versa 
(interpolar). 

Podemos usar quaisquer pontos que quisermos como pontos de avaliação mas, escolhendo os pontos de avaliação 
cuidadosamente, a conversão entre representações demora apenas o tempo O(n lg n). Como veremos na Seção 30.2, 
se escolhermos “raízes complexas da unidade” como pontos de avaliação, poderemos produzir uma representação por 
pares ponto-valor tomando a transformada discreta de Fourier (DFT — Discrete Fourier Transform) de um vetor de 
coeficientes. Podemos efetuar a operação inversa, a interpolação, tomando a “DFT inversa” de pares ponto-valor, 
produzindo um vetor de coeficientes. A Seção 30.2 mostrará como a FFT executa as operações DFT e DFT inversa no 
tempo O(n lg n). 

A Figura 30.1 mostra essa estratégia em gráfico. Um pequeno detalhe referente às limitações de grau: o produto de 
dois polinômios de grau limitado por n é um polinômio de grau limitado por 2n. Portanto, antes de avaliar os polinômios 
de entrada 4 e B, primeiro temos de dobrar as limitações de grau para 2n somando n coeficientes de ordem alta iguais 
a O. Como os vetores têm 2n elementos, usamos “raízes (21n1)-ésimas complexas da unidade”, que são denotadas pelos 
2, termos na Figura 30.1. 


elo liga a o e los Time O (n?) 
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O ACESS Can 
Dara 2a representations 


Evaluation Interpolation 
Time O(n lgn) 

Y 
A(w9,). B(wS,) C(wS,) | 


| nd os 
A(w,,), B(w,5,) Pointwise multiplication ” C(w,,) Point-value 


Time O(nlgn) 


Time O(n) representations 


A(w2r-1), B(w2r-1) Elos) 


2n 


Figura 30.1 Esboço gráfico de um processo eficiente de multiplicação de polinômios. As representações na parte superior estão na 
forma com coeficientes, enquanto as da parte inferior estão na forma com pares ponto-valor. As setas da esquerda para a direita 
correspondem à operação de multiplicação. Os 2n termos são raízes complexas (2n)-ésimas da unidade. 


Dada a FFT, temos o procedimento de tempo O(n lg n) descrito a seguir para multiplicar dois polinômios A(x) e 
B(x) de grau limitado a n, onde as representações de entrada e saída estão na forma com coeficientes. Supomos que n 
é uma potência de 2; sempre podemos cumprir esse requisito adicionando coeficientes de ordem alta iguais a zero. 


1. Dobrar a limitação do grau: Crie representações por coeficientes de A(x) e B(x) como polinômios de grau 
limitado por 2n, adicionando n coeficientes zero de ordem alta a cada um. 

2. Avaliar: Calcule representações por pares ponto-valor de A(x) e B(x) de comprimento 2n aplicando a FFT de 
ordem 2n a cada polinômio. Essas representações contêm os valores dos dois polinômios nas raízes (2n)-ésimas 
da unidade. 

3. Multiplicação ponto a ponto: Calcule uma representação por pares ponto-valor para o polinômio C(x) = 
A(x)B(x) multiplicando esses valores ponto a ponto. Essa representação contém o valor de C(x) em cada raiz 
(2n)-ésima da unidade. 

4. Interpolar: Crie a representação por coeficientes do polinômio C(x) aplicando a FFT a 2n pares ponto-valor para 
calcular a DFT inversa. 


As etapas (1) e (3) demoram o tempo O(n), e as etapas (2) e (4) demoram o tempo O(n lg nn). Assim, uma vez 
demonstrado como usar a FFT, teremos provado o seguinte. 


Teorema 30.2 


Podemos multiplicar dois polinômios de grau limitado a n no tempo O(n lg n), com ambas as representações de 
entrada e saída na forma com coeficientes. 


Exercícios 


30,1-1 


30,1-2 


30,1-3 


30,1-4 


30,1-5 


30,1-6 


30,1-7 


Multiplique os polinômios A(x) = 7x, - x, + x - 10 e B(x) = 8x, - 6x + 3, usando as equações (30.1) e 
(30.2). 


Um outro modo de avaliar um polinômio A(x) de grau limitado a n em um dado ponto x, é dividir A(x) pelo 
polinômio (x - x,) , obtendo um polinômio quociente g(x) de grau limitado a n - 1 e umresto r, tais que 


Alo) = ql)x — x) +r. 


Claramente, A(xo) = 7 Mostre como calcular o resto 7 e os coeficientes de g(x) no tempo O(n) dados xoe os 
coeficientes de 4. 


n—-1 e] 
Deduza uma representação por pares ponto-valor para 4. (x) = Doo partindo de uma representação 
n—1 | 
por pares ponto-valor para A(x) = » =0 1, supondo que nenhum dos pontos é 0. 


Prove que são necessários n pares ponto-valor distintos para especificar unicamente um polinômio de grau 
limitado por n, isto é, se são dados menos do que n pares ponto-valor distintos, eles não conseguem 
especificar um polinômio de grau limitado por n único. (Sugestão: Usando o Teorema 30.1, o que você pode 
dizer sobre um conjunto de n - 1 pares ponto-valor ao qual acrescenta um par ponto-valor escolhido de 
modo arbitrário? ) 


Mostre como usar a equação (30.5) para interpolar no tempo Q(n,). (Sugestão: Primeiro calcule a 
representação por coeficientes do polinômio | | (x — x ;) e então divida por (x - x,) conforme necessário para 
o numerador de cada termo. Veja o Exercício 30.1-2. Podemos calcular cada um dos n denominadores no 
tempo O(n).) 


Explique o que está errado na abordagem “óbvia” para divisão de polinômios usando uma representação por 
pares ponto-valor, isto é, dividindo os valores y correspondentes. Discuta separadamente o caso em que o 
resultado da divisão é exato e o caso em que não é exato. 


Considere dois conjuntos 4 e B, cada um com n inteiros na faixa de O a 10n. Desejamos calcular a soma 
cartesiana de 4 e B, definida por 


C=ixty:xeAeye B). 


Observe que os inteiros em C estão na faixa de O a 20n. Queremos determinar os elementos de C e o número 
de vezes que cada elemento de € é obtido como uma soma de elementos em 4 e B. Mostre como resolver o 
problema no tempo O(n lg nn). (Sugestão: Represente 4 e B como polinômios de grau no máximo 10n.) 


30.2 DFT E FFT 


Na Seção 30.1, afirmamos que, se usarmos raízes complexas da unidade, podemos avaliar e interpolar polinômios 
no tempo Q(n lg n). Nesta seção, definimos raízes complexas da unidade e estudamos suas propriedades, definimos a 
DFT e depois mostramos como a FFT calcula a DFT e sua inversa no tempo Q(n lg n). 


Figura 30.2 Os valores de wºs ,w!s, ,wv!sno plano complexo, onde ws= e? é a raiz oitava principal da unidade. 


Raizes complexas da unidade 


Uma raiz complexa n-ésima da unidade é um número complexo tal que 


O = 
Há exatamente n raízes n-ésimas complexas da unidade: epi, para k = 0, 1,...,n - 1. Para interpretar essa 
fórmula, usamos a definição da exponencial de um número complexo: 


e” = cos(u) + i sen(u). 


A Figura 30.2 mostra que as n raízes complexas da unidade estão igualmente espaçadas ao redor do círculo de raio 
unitário com centro na origem do plano complexo. O valor 


w = e2ri/n (30.6) 


n 


é raiz n-ésima principal da unidade;? todas as outras raízes n-ésimas complexas da unidade são potências de .. 
As n raízes n-ésimas complexas da unidade, 
Ô 1 n—1 
as é aa NR. ed? 
formam um grupo sob multiplicação (consulte a Seção 31.3). Esse grupo tem a mesma estrutura 


j+k i+k) mod n 
E — qe : 


n n 


a 2 “4 RD x e PG — 
que o grupo aditivo (Z, +) módulo, já w” = w =1 que implica que w'w =w 
De modo semelhante, w' = «"*. Os lemas apresentados a seguir dão algumas propriedades 


essenciais das raízes n-ésimas complexas da unidade. 


Lema 30.3 (Lema do cancelamento) 


Para quaisquer nteirosn>0,k>0ed>0, 
wa = wr. (30.7) 


n 


Prova O lema decorre diretamente da equação (30.6), visto que 


dn 


Emi edad dá 


dk edi je 


n 


Corolário 30.4 


Para qualquer inteiro par n > 0, 


Prova A prova fica para o Exercício 30.2-1. 


Lema 30.5 (Lema da divisão em metades) 
Sen > O é par, então os quadrados das n raízes n-ésimas complexas da unidade são as n/2 raízes (n/2)-ésimas 
complexas da unidade. 


Prova Pelo lema do cancelamento, temos (4,)2 = kn/2, para qualquer inteiro não negativo k. Observe que, se elevarmos 
ao quadrado todas as raízes n-ésimas complexas da unidade, cada >raiz (n/2)-ésima da unidade será obtida exatamente 


duas vezes, visto que 


2k 


n 
k 2 
— 69) . 
(1) 
Assim, wkn € Dkntnl2 têm o mesmo quadrado. Também poderíamos ter usado o Corolário 30.4 para provar essa 
propriedade, já que 0nn/2 = -1 implica ok+n/2 = —w kn e, portanto (nk+n/2 )2 = —L(w kn 2... 


Como veremos, o lema da divisão em metades é essencial para nossa abordagem de divisão e conquista para 
converter representações por coeficientes em representações por pares ponto-valor e vice-versa, já que garante que os 
subproblemas recursivos terão somente metade do tamanho. 


Lema 30.6 (Lema do somatório) 


Para qualquer inteiro n > 1 e inteiro não nulo k não divisível por n, 


Prova A equação (A.5) se aplica a valores complexos, bem como a reais, e então temos 


| (w* y” o 1 
Duty = Im 
j=0 pat = 


w"—1 
1-1 
E | 


Como impomos que k não seja divisível por n, e como k = 1 somente quando k é divisível por n, garantimos que o 
denominador não é 0. 


ADFT 


Lembre-se de que desejamos avaliar um polinômio 


n—1 


A(x)= D5a,x 


j=0 


de grau limitado por nem www, w"” (isto é, nas n raízes n-ésimas complexas da unida- 


de).º Supomos que 4 seja dado na forma com coeficientes: a — (a,,4,,...,4, ,). Vamos definir os 
resultados y,, parak — 0,1,...,n — 1, por 


y = Aws) 
n—1 
= Da wi. (30.8) 
j=0 
O vetor y = (Yo Yp --, Y- !) é à transformada discreta de Fourier (DFT — Discrete Fourier Trans- form) do 
vetor de coeficientes a = (a,, à, ..., a, - 1). Escrevemos também y = DFT (a). 
AFFT 


Usando um método conhecido como transformada rápida de Fourier (FFT — Fast Fourier Transform), 
que aproveita as propriedades especiais das raízes complexas da unidade, podemos calcular DFT (a) no tempo Q(n lg 
n), em comparação com o tempo Q(n,) do método direto. Supomos em tudo que n é uma potência exata de 2. 
Embora existam estratégias para lidar com tamanhos que não sejam potências de 2, elas estão fora do escopo deste 
livro. 

O método da FFT emprega uma estratégia de divisão e conquista, utilizando separadamente os coeficientes de 
índice par e os coeficientes de índice fmpar de A(x) para definir os dois novos polinômios de grau limitado por n/2 Ap 


(x) e Ap (x): 


[0] Eos 2 n/2—1 
A) =, EE, PE Peach, ; 


Es 


[19 e 2 1/2—1 
DA dd, O True Das 


x 


Observe que A!'l contém todos os coeficientes de índice par de A (a representação binária do 
índice termina em 0) e AU! contém todos os coeficientes de índice ímpar (a representação binária 
do índice termina em 1). Decorre que 


A(x) = Al?) + x Al?) , (30.9) 
de modo que o problema de avaliar A(x) em w",w',---,w"" se reduz a 


1. avaliar os polinômios de grau limitado por n/2 A!(x) e A!I(x) nos pontos 
(wo? (mu Poco (wi? (30.10) 


e então 
2. combinar os resultados de acordo com equação (30.9). 

Pelo lema da divisão em metades, a lista de valores (30.10) não consiste em n valores distintos, mas somente nas 
n/2 raízes (n/2)-ésimas complexas da unidade, sendo que cada raiz ocorre exatamente duas vezes. Portanto, avaliamos 
recursivamente os polinômios 4 e 4h de grau limitado por n/2 nas n/2 raízes (n/2)-ésimas complexas da unidade. 
Esses subproblemas têm exatamente a mesma forma do problema original, mas metade do tamanho. Agora 
conseguimos dividir o cálculo de uma DFT, de n elementos em dois cálculos de DFT,2 de n/2 elementos. Essa 


decomposição é a base para o algoritmo recursivo da FFT a seguir, que calcula a DFT de um vetor de n elementos a = 
(ay, A, ..., à, - 1), onde n é uma potência de 2. 


RECURSIVE-FeT(a) 


1 n=a.comprimento /|n é uma potência de 2 
2 En == 

3 return q 

4 mw, = elmitm 

o are 1 


6 gl — (as, Ao o A, a 
7Zal=(a,a,..,0,) 
8 y'! = Recursive-Fer(a!'!) 
9 yll! = Recursive-Fer(a!!) 
10 fork=0Oton/2-1 


o) h) 
1 Ven Ye — UV, 
Ls V=00, 
14 return y /! y é considerado um vetor coluna 


O procedimento Recursive-Fft funciona da seguinte maneira: as linhas 2-3 representam a base da recursão; a DFT 
de um elemento é o próprio elemento, já que, nesse caso, 


o 0 
Yo — AO, 
=4:1 


ss A, . 
As linhas 6-7 definem os vetores de coeficientes para os polinômios 4, e 4, As linhas 4, 5 e 13 garantem que é 
atualizado corretamente de modo que, sempre que as linhas 11-12 são executadas, temos wo = « k: (Manter um valor 
contínuo de iteração a iteração poupa tempo em relação a calcular w « desde o início a cada passagem pelo laço for.) 
As linhas 8-9 executam os cálculos recursivos de DFT /2 definindo, para k = 0,1,...,n/2-1, 


: Po 
ou, visto que w |,—w pelo lema do cancelamento, 


As linhas 11-12 combinam os resultados dos cálculos recursivos das DFT, ,. Para y,,W,» ....! 
a linha 11 produz 


n/2—1º 


no = Wtoyo 
Aço) + wi Ato) 


= A(w*) (pela equação (30.9). 


n 


Para y,,»Y,p 41º Y, - 1 fazendo k = 0,1,...,n/2 — 1,a linha 12 produz 
Rad 
= lol k+(n/2), [1] 4 kHn/D. 0 k 
= V, + Day Gáque wO=w) 


= A (w 2 4 cp H00/2) A (92h 


n 


lol A k 2 Ç 
= A (ww o pq A A, (já que pg. w2*) 


n n n 


= A(ut/2) (pela equação 30.9)). 


Assim, o vetor 1 retornado por RECURSIVE-FrT é de fato a DFT do vetor de entrada a. 

As linhas 11 e 12 multiplicam cada valor pe por ul «para k=— 0, Los n/Z — 1, 

A linha 11 soma esse produto a 1), e a linha 12 o subtrai. Como usamos cada fator «” nas 
formas positiva e negativa, denominamos os fatores ' fatores de giro. 


Para determinar o tempo de execução do procedimento REcursIvE-FrT, observamos que, 
com exceção das chamadas recursivas, cada invocação demora o tempo O(n), onde n é o com- 
primento do vetor de entrada. Portanto, a recorrência para o tempo de execução é 


T(n) = 2T(n/2) + O(n) 
= O(n lg n). 


Assim, podemos avaliar um polinômio de grau limitado a n nas raízes n-ésimas complexas da unidade no tempo 
O(n lg n) usando a transformada rápida de Fourier. 


Interpolação nas raízes complexas da unidade 


Agora, completamos o esquema de multiplicação de polinômios mostrando como interpolar as raízes complexas da 
unidade por um polinômio, o que nos permite reconverter da forma com pares ponto-valor para a forma com 
coeficientes. Interpolamos escrevendo a DFT como uma equação matricial e depois observando a forma da inversa da 
matriz. 


Pela equação (30.4), podemos escrever a DFT como o produto de matrizes y = V º,onde V, 
é uma matriz de Vandermonde que contém as potências adequadas de w : 


Vo Eq à Zoe q a, 
2 E) n—1 
y 1. tw w w a 
1 n n n n 1 
gh w? to? w* pd) 
Y, E n n n n a, 
1 Ru use a 3(n—1) 
LA n n n n a, 
n—1 2(n—1) 3(n—1) (n—-D(n—1) 
Das 1 e a a a La 


A entrada (Kk, j) de V, é w para j,k=0,1,...n — 1. Os expoentes das entradas de V, formam uma 
tabela de multiplicação. 

Para a operação inversa, que escrevemos como a = DFT” (y), multiplicamos y pela matriz 
V”',a inversa de V.. 


a 


Teorema 30.7 


(uy 


Para j,k=0,1,...n — 1,a entrada (j,k) de é 5 ut = “a E 


Prova Mostraremos que V!= I, a matriz identidade n x n. Considere a entrada (j, j) de 
E Va 


n—l 


W VI = vu Inu” 
[V; a) 24  Ankw) 
n— 


a 
Dun 


Esse somatório é igual a 1 se j' = j, e é O caso contrário, de acordo com o lema do somatório 
(Lema 30.6). Observe que nos baseamos em —(n — 1) <j<— j'<n — 1, de modo que | — jnão 
é divisível por n, o que permite aplicar o lema do somatório. 


Dada a matriz inversa V:!, temos que DFT “(1) é dada por 


n— 
a, => uso; (30.11) 

N k=0 
para | =0,1,...n — 1. Comparando as equações (30.8) e (30.11), vemos que modificando o al- 
goritmo da FFT para trocar os papéis de a e y, substituir w por w! e dividir cada elemento do 
resultado por n, calculamos a DFT inversa (veja o Exercício 30.2-4). Assim, podemos calcular 

DFT” também no tempo O(n lg n). 

Vemos que, usando a FFT e a FFT inversa, podemos alternar livremente um polinômio de 
grau limitado por n entre sua representação por coeficientes e sua representação por pares ponto- 
-valor no tempo O(n lg n). No contexto da multiplicação de polinômios, já mostramos o seguinte. 


Teorema 30.8 (Teorema de convolução) 


Para quaisquer dois vetores a e b de comprimento n, onde n é uma potência de 2, 


ag b= DFT;(DFT, (a): DFT, (b)), 


onde os vetores a e b são preenchidos com zeros até o comprimento 2n, e - denota o produto componente a 
componente de dois vetores de 2n elementos. 


Exercícios 


30,2-1 


30,2-2 


30,2-3 


30,2-4 


30,2-5 


30,2-6 


30,2-7 


30.2-8 


Prove o Corolário 30.4. 

Calcule a DFT do vetor (0, 1, 2, 3). 

Faça o Exercício 30.1-1 usando o esquema de tempo O(n lg n). 
Escreva pseudocódigo para calcular DF'T-1!, no tempo O(n lg nn). 


Descreva a generalização do procedimento FFT para o caso em que n é uma potência de 3. Dê uma 
recorrência para o tempo de execução e resolva a recorrência. 


* Suponha que, em vez de executar uma FFT de n elementos no corpo dos números complexos (onde n é 
par), usamos o anel » de inteiros módulo m, onde m = 2 m/2 + 1 e t é um inteiro positivo arbitrário. Use = 
2: em vez de , como uma raiz n-ésima principal da unidade, módulo m. Prove que a DFT e a DFT inversa 
estão bem definidas nesse sistema. 


Dada uma lista de valores zo, z,, ..., Z, - 1 (possivelmente com repetições), mostre como determinar os 
coeficientes de um polinômio P(x) de grau limitado por n que tem zeros somente em z,, Z,, ..., Z,- |! 
(possivelmente com repetições). Seu procedimento deve ser executado no tempo O(n lg2 n). (Sugestão: O 
polinômio P(x) tem um zero em z; se e somente se P(x) é um múltiplo de (x - z;).) 


* A transformada chirp de um vetor a = (a, a, ..., a, -!) é o vetor y = (Pp Yp =. Y n- 1), onde 


Ve) aa 
di » "9 1 é qualquer número complexo. Portanto, a DFT é um caso especial da transformada chirp 
obtida tomando z = . Mostre como avaliar a transformada chirp no tempo O(n lg n) para qualquer número 
complexo z. (Sugestão: Use a equação 


n—1 


y,= z8/2 E tudo 


j=0 


para ver a transformada chirp como uma convolução.) 


30.3 ImpLEMENTAÇÕES EFICIENTES DE FF T 


Considerando que as aplicações práticas da DFT, como o processamento de sinais, exigem a máxima velocidade, 
esta seção examina duas implementações eficientes de FFT. Primeiro, examinaremos uma versão iterativa do algoritmo 
da FFT que é executada no tempo O(n lg n), mas que pode ter uma constante oculta mais baixa na notação O que a 
implementação recursiva da Seção 30.2. (Dependendo da exata implementação, a versão recursiva pode usar a cache 


do hardware com maior eficiência.) Então, usaremos as ideias que nos levaram à implementação iterativa para projetar 
um circuito FFT paralelo eficiente. 


Uma implementação iterativa de FFT 


Em primeiro lugar observamos que o laço for das linhas 10-13 de Recursive-Fft envolve calcular o valor duas 
vezes. Em termmologia de compilador, esse valor é denominado subexpressão comum. Podemos mudar o laço para 
calculá-lo apenas uma vez, armazenando-o em uma variável temporária t. 


parak=0Oparan/2-1 


t= wy, 

V, =yo+t 
“do 

Y es(n/2) = Hz = 


W — Wu, 


A operação nesse laço, que é multiplicar o fator de giro wo = qwk, por [1], armazenar o produto em t e adicionar e 
subtrair t de y(0], é conhecida como operação borboleta e é mostrada esquematicamente na Figura 30.3. 

Agora, mostramos como transformar a estrutura do algoritmo FFT em iterativa, em vez de recursiva. Na Figura 
30.4, organizamos os vetores de entrada para as chamadas recursivas em uma invocação de Recursive-Fft em uma 
estrutura de árvore, onde a chamada inicial é para n = 8. A árvore tem um nó para cada chamada do procedimento, 
identificado pelo vetor de entrada correspondente. Cada invocação de Recursive-Fft faz duas chamadas recursivas, a 
menos que tenha recebido um vetor de um elemento. A primeira chamada aparece no filho à esquerda e a segunda 
chamada aparece no filho à direita. 

Examinando a árvore, observamos que, se pudéssemos organizar os elementos do vetor inicial a na ordem em que 
eles aparecem nas folhas, poderíamos seguir o curso da execução do procedimento Recursive-ft, mas de baixo para 
cima, em vez de de cima para baixo. Primeiro, tomamos os elementos aos pares, calculamos a DFT de cada par usando 
uma operação borboleta e substituímos o par por sua DFT. Então, o vetor contém n/2 DFTs de dois elementos. Em 
seguida, tomamos essas n/2 DFTs aos pares e calculamos a DFT dos quatro elementos de vetor de onde elas vieram, 
executando duas operações borboleta, substituindo duas DFTs de dois elementos por uma DFT de quatro elementos. 
Então o vetor contém n/4 DF'Ts de quatro elementos. Continuamos dessa maneira até o vetor conter duas DF'Ts de 
(n/2) elementos, as quais combinamos usando n/2 operações borboleta na DFT final de n elementos. 

Para transformar essa abordagem de baixo para cima em código, usamos um arranjo A[O ..n - 1] que inicialmente 
contém os elementos do vetor de entrada a na ordem em que eles aparecem nas folhas da árvore da Figura 30.4. (Mais 
adiante, mostraremos como determinar essa ordem, conhecida como permutação com inversão de bits.) Como temos 
de combinar DF'Ts em cada nível da árvore, introduzimos uma variável s para contar os níveis, que varia de 1 (na parte 
inferior, quando estamos combinando pares para formar DF'Ts de dois elementos) a lg n (na parte superior, quando 
estamos combinando duas DFTs de (n/2) elementos para produzir o resultado final) Portanto, o algoritmo tem a 
seguinte estrutura: 


1 fors=1tolgn 

2 fork=0Oton-—1lpor2 

3 combine as duas DFTs de 25! elementos em 
Alk..k+21-1]eA[k+21..k4+2º—1] 
em uma DFT de 2º elementos em A[k..k +25 — 1] 


| 


(a) (b) 


Figura 30.3 Uma operação borboleta. (a) Os dois valores de entrada entram pela esquerda, o fator de giro « , é multiplicado por ykrn, e a 
soma e a diferença saem pela direita. (b) Desenho simplificado de uma operação borboleta. Usaremos essa representação em um circuito 
FFT paralelo. 


Figura 30.4 Arvore de vetores de entrada para as chamadas recursivas do procedimento Recursive-rrr. A invocação inicial é para n =8. 


Podemos expressar o corpo do laço (linha 3) como pseudocódigo mais preciso. Copiamos o laço for do 
procedimento Recursive-Fft, identificando yo, com A[k .. k + 2s-1- 1] e ya,com A[k 2s-1...k + 2s - 1]. O valor de giro 
usado em cada operação borboleta depende do valor de s; ele é uma potência de », onde m = 2 . (Introduzimos a 
variável m exclusivamente em atenção à legibilidade.) Introduzimos outra variável temporária u que nos permite executar 
a operação borboleta no lugar. Quando substituímos a linha 3 da estrutura global pelo corpo do laço, obtemos o 
pseudocódigo a seguir, que forma a base da implementação paralela que apresentaremos mais adiante. Primeiro o 
código chama o procedimento auxiliar Bit-Reverse-Copy(a, 4) para copiar o vetor a para o arranjo 4 na ordem inicial 
em que precisamos dos valores. 


ITERATIVE-FrT(A) 

1 Brr-Reverse-CopY(a, 4) 

2 n=a.comprimento //n é uma potência de 2. 
3 fors=1tolgn 


4 fi = 4 

5 o = elrilm 

6 fork=Oton-1bym 
rd ow =1 

8 forj=0Otom/2-1 
9 t= wA|k +j+m/2] 
10 u= Alk + j] 

1 Alk+j]=u+t 

12 Aka jr mi2]=U—+t 
13 v= vw. 

14 return 4 


Como Bit-Reverse-Copy obtém os elementos do vetor de entrada a na ordem desejada no arranjo 4? A ordem 
em que as folhas aparecem na Figura 30.4 é uma permutação com inversão de bits. Isto é, se representarmos por 
rev(k) o inteiro de lg n bits formado pela inversão dos bits da representação binária de k, teremos de inserir o elemento 
de vetor a, na posição de arranjo A[rev(k)]. Na Figura 30.4, por exemplo, as folhas aparecem na ordem 0, 4, 2, 6, 1, 
5, 3, 7; em linguagem binária, essa sequência é 000, 100, 010, 110, 001, 101, 011, 111 e, quando invertemos os bits 
de cada valor, obtemos a sequência 000, 001, 010, 011, 100, 101, 110, 111. Para ver que precisamos de uma 
permutação com inversão de bits em geral, observamos que, no nível superior da árvore, índices cujo bit de ordem 
baixa é O entram na subárvore à esquerda e índices cujo bit de ordem baixa é 1 entramna subárvore à direita. Extraindo 
o bit de ordem baixa em cada nível, continuamos esse processo descendo a árvore até obtermos a ordem dada pela 
permutação por reversão de bits nas folhas. 

Visto que é fácil calcular a função rev(k), o procedimento Bit-Reverse-Copy é simples: 


Brr-REvERSE-CoPYy(a, 4) 
1 n=a.comprimento 
2 fork=-Oton-—1 
3 Alrev(k)] =, 


A implementação de FFT iterativa é executada no tempo O(n lg n). A chamada a Bit-Reverse-Copy(a, 4) 
certamente é executada no tempo O(n lg n), já que iteramos n vezes e podemos inverter a representação de um inteiro 
entre O en - 1, com lg n bits, no tempo O(lg n). (Na prática, como em geral, conhecemos o valor inicial de n com 
antecedência, provavelmente codificaríamos um mapeamento de tabela k para rev(k), fazendo Bit-Reverse-Copy ser 
executado no tempo O(n) com uma constante oculta baixa. Como alternativa, poderíamos usar o esquema inteligente do 
contador binário com inversão de bits descrito no Problema 17-1.) Para conclur a prova de que Iterative-Fft é 
executado no tempo Q(n lg n), mostramos que L(n), o número de vezes que o corpo do laço mais interno (linhas 8-13 ) 
é executado, é Q(n lg n). O laço for das linhas 6-13 itera n/m = n/2s vezes para cada valor de s, e o laço mais interno 
das linhas 8-13 itera m/2 = 2s-1 vezes. Assim, 


Um circuito FFT paralelo 


Podemos explorar muitas das propriedades que nos permitiram implementar um algoritmo FFT iterativo eficiente 
para produzir um algoritmo paralelo eficiente para a FFT. Expressaremos o algoritmo FFT paralelo como um circuito. A 
Figura 30.5 mostra um circuito FFT paralelo que calcula a FFT para n entradas, para n = 8. O circuito começa com 
uma permutação com inversão de bits das entradas, seguida por lg n estágios, cada estágio consistindo em n/2 
borboletas executadas em paralelo. A profundidade do circuito — o número máximo de elementos computacionais 
entre qualquer saída e qualquer entrada que pode alcançá-lo — é, portanto, Q(lg n). 

A parte da extrema esquerda do circuito FFT paralelo executa a permutação com inversão de bits, e o restante 
imita o procedimento iterativo Iterative-Fft. Como cada iteração do laço for mais externo executa nn/2 operações 
borboleta independentes, o circuito as executa em paralelo. O valor de s em cada iteração dentro de Iterative-Fft 
corresponde a um estágio de borboletas, como mostra a Figura 30.5. Para s = 1, 2,..., lg n, o estágio s consiste em 
n/2s grupos de borboletas (correspondentes a cada valor de k em Iterative-Fft), com 2s-1 borboletas por grupo 
(correspondentes a cada valor de j em Iterative-Fft). As borboletas mostradas na Figura 30.5 correspondem às 


operações borboleta do laço mais interno (linhas 9-12 de Iterative-Fft). Observe também que os fatores de giro usados 
0 1 m/2-1 
.. “w 


m m m 


nas borboletas correspondem aos que são utilizados em Iterative-Fft: no estágio s, usamos , onde m = 


2s. 


| 


w; 
an = ya 
wo > 
wo w) >———— 
az SUS 
Og 
aa = Yá 
ws on >—— 
vs qo >——————— 
As = ViG 
wo q >———— OR 


estágio s =] 


estágio s = 2 


estágio s =3 


Figura 30.5 Umcircuito que calcula a FFT em paralelo, mostrado aqui para n = 8 entradas. Cada operação borboleta toma como entrada 
os valores em dois fios, juntamente com um fator de giro, e produz como saídas os valores em dois fios. Os estágios de borboletas são 
identificados de modo a corresponder a iterações do laço mais externo do procedimento irerarive-FFT. Somente os fios superior e 
inferior que passam por uma borboleta interagem com ela; fios que passam pelo meio de uma borboleta não afetamessa borboleta nem 
seus valores são alterados por essa borboleta. Por exemplo, a borboleta superior no estágio 2 não temnenhuma relação com o fio 1 (o 
fio cuja saída é identificada por y1); suas entradas e saídas estão apenas nos fios 0 e 2 (identificadas por yo e y2, respectivamente). Esse 
circuito tem profundidade Q(lg nn) e executa Q(n lg n) operações borboleta no total. 


Exercícios 

30.3-1 Mostre como Iterative FFT calcula a DFT do vetor de entrada (0, 2, 3, -1, 4,5, 7,9). 

30.3-2 Mostre como implementar um algoritmo FFT com a permutação com inversão de bits ocorrendo no final e 
não no início do cálculo. (Sugestão: Considere a DFT inversa.) 

30.3-3 Quantas vezes Iterative FFT calcula fatores de giro em cada fase? Reescreva Iterative FFT para calcular 
fatores de giro somente 2s-1 vezes na fase s. 

30.3-4 * Suponha que os somadores dentro das operações borboleta no circuito FFT, às vezes, falham de tal 
maneira que sempre produzem uma saída zero, independentemente de suas entradas. Suponha que 
exatamente um somador tenha falhado, mas que você não saiba qual. Descreva como é possível identificar o 
somador que falhou fornecendo entradas para o circuito FFT global e observando as saídas. Qual é a 
eficiência do seu método? 

Problemas 

30-1 Multiplicação por divisão e conquista 


a. Mostre como multiplicar dois polinômios lineares ax + b e cx + d usando apenas três multiplicações. 
(Sugestão: Uma das multiplicações é (a + b) : (c+ d).) 


b. Dê dois algoritmos de divisão e conquista para multiplicar dois polinômios de grau limitado por n no 
tempo Q(ni 3). O primeiro algoritmo deve dividir os coeficientes dos polinômios de entrada em uma 
metade alta e uma metade baixa, e o segundo algoritmo deve dividi-los conforme o índice seja ímpar ou 
par. 


c. Mostre como multiplicar dois inteiros de n bits em Q(nx 3) etapas, em que cada etapa opera no máximo 
em um número constante de valores de 1 bit. 


30-2 Matrizes de Toeplitz 


Uma matriz de Toeplitz é uma matrzn x nA = (a;) tal que aj=a;-1,j-1 parai= EE Ra (A es fara 
n. 


a. A soma de duas matrizes de Toeplitz é necessariamente de Toeplitz? E o produto? 


b. Descreva como representar uma matriz de Toepltz de modo que você possa somar duas matrizes de 
Toepltz n x n no tempo O(n). 


c. Dê um algoritmo de tempo O(n lg n) para multiplicar uma matriz de Toeplitz n x n por um vetor de 
comprimento n. Use sua representação da parte (b). 


d. Dê umalgoritmo eficiente para multiplicar duas matrizes de Toeplitz n x n. Analise o tempo de execução. 
30-3 Transformada rápida de Fourier multidimensional 


Podemos generalizar a transformada discreta de Fourier unidimensional definida pela equação (30.8) para d 
dimensões. A entrada é um arranjo d-dimensional 4 = (a, 2,..jd)cujas dimensões são n,, n,, ..., ny onde 
nn, ... n4= n. Definimos a transformada discreta de Fourier d-dimensional pela equação 


jk jak, 
y — ) ) > Bo. WU tc 1 
Ko ko pesks horda n n 


pl PA d 
pras endEMen USE, 


a. Mostre que podemos calcular uma DFT d-dimensional calculando DF'Ts unidimensionais em cada 
dimensão por vez. Isto é, primeiro calculamos n/n: DF'Ts unidimensionais separadas ao longo da 
dimensão 1. Então, usando o resultado das DF'Ts ao longo da dimensão 1 como entrada, calculamos n/n> 
DF'Ts unidimensionais separadas ao longo da dimensão 2. Usando esse resultado como entrada, calcule 
n/n: DF'Ts unidimensionais separadas ao longo da dimensão 3, e assim por diante, até a dimensão d. 


b. Mostre que a ordenação de dimensões não importa, de modo que podemos calcular uma DFT d- 
dimensional calculando as DF'Ts unidimensionais em qualquer ordem das d dimensões. 


c. Mostre que, se calcularmos cada DFT unidimensional calculando a transformada rápida de Fourier, o 
tempo total para calcular uma DFT d-dimensional é O(n lg n), independentemente de d. 


30-4 Avaliar todas as derivadas de um polinômio em um ponto 


Dado um polinômio A(x) de grau limitado a n, definimos sua t-ésima derivada por 


A(x) set=0, 
AS(a)=/2A0 sel<t<n-l, 


0) set>n. 
Pela representação por coeficientes (a,, a,, ..., a, - 1) de A(x) e um ponto dado x,, desejamos determimar 4,, 
(x)parat=0,1,..,n-1. 
a. Dados os coeficientes bo, bi, ..., b» - 1 tais que 


n—1 
AP()=5 bla). 


j=0 
mostre como calcular A,(x,) para t = 0, 1,...,n - 1, no tempo O(n). 


b. Explique como determinar b 5, b,, ..., b, , no tempo O(n lg n), dado A(x + w:) para k = 0,1,...,n— 1. 


n—1 ai n—1 o o 
A(x +w)=5 15 Hoigtr-))|» 
o! Pla 


onde f) = a; j! e 
(= Ho /(—D! se-(n—1I)<I<o0, 
Ê Ô sel<I<n-—l. 
c. Explique como avaliar A(x, +) para k = 0, 1,...,n - 1 no tempo O(n lg n). Conclua que podemos 
avaliar todas as derivadas não triviais de A(x) em x, no tempo O(n lg n). 
30-5 Avaliar polinômios em vários pontos 


Já vimos como avaliar um polinômio de grau limitado por n - 1 em um ponto isolado no tempo O(n) usando a 
regra de Horner. Também descobrimos como avaliar tal polinômio em todas as n raízes complexas da unidade 
no tempo O(n lg n) usando a FFT. Agora, mostraremos como avaliar um polinômio de grau limitado por n em 
n pontos arbitrários no tempo O(n le? nn). 


Para tal, suporemos que podemos calcular o resto do polinômio quando um desses polinômios é dividido por 
outro no tempo O(n lg n), um resultado que afirmamos sem prova. Por exemplo, o resto de 3x, + x,- 3x + 1 
quando dividido por x, + x + 2 é 


(3xº +xº —- 3x + I)mod (x +x+2)=—7x+5. 


n—1 


k 
ko UN en pontos 


Dada a representação por coeficientes de um polinômio A(x) = , 


Loo Kyo sex X, > desejamos calcular os n valores Alx,), Atx). ses, q) ParaOSi<;s 
n — 1, defina os polinômios Px) = Lo(x— me Q (1) = A(x) mod Po). Observe que 
Q (x) tem grau no máximo j — i. 


a. Prove que 4(x) mod (x - z) = A(z) para qualquer ponto z. 
b. Prove que Ou(x) = A(x:) e que Oo, n - (x) = A(x). 
c. Prove que, para i<k <j, temos Ox) = Ox) mod Pu(x) e Ox) = Ox) mod Px). 
d. Dê umalgoritmo de tempo O(n lg>n) para avaliar A(x ), A(x ), ..., A(x ). 
30-6 FFT com aritmética modular 


Conforme definido, a transformada discreta de Fourier requer cálculo com números complexos, o que pode 
resultar em uma perda de precisão devido a erros de arredondamento. Para alguns problemas, sabe-se que a 
resposta contém somente inteiros e, se usarmos uma variante da FFT baseada em aritmética modular, 
poderemos garantir que a resposta será calculada com exatidão. Um exemplo de tal problema é o de 
multiplicar dois polinômios com coeficientes inteiros. O Exercício 30.2-6 nos dá uma abordagem, usando um 
módulo de comprimento Q(n) bits para tratar uma DFT em n pontos. Este problema apresenta uma outra 
abordagem que usa um módulo com o comprimento mais razoável O(lg n). O problema requer que você 
entenda o material do Capítulo 31. Seja n uma potência de 2. 


a. Suponha que procuramos o menor k tal que p = kn + 1 é primo. Dê um argumento heurístico simples que 
explique por que poderíamos esperar que k seja aproximadamente ln n. (O valor de k poderia ser muito 
maior ou muito menor, mas é razoável esperar que examinaremos O(lg n) valores candidatos de k em 
média.) Como o comprimento esperado de p se compara com o de nº 


Seja g um gerador de »* e seja w = g: mod p. 


b. Demonstre que a DFT e a DFT inversa são operações inversas bem definidas módulo p, onde w é usado 
como uma raiz n-ésima principal da unidade. 


c. Demonstre como fazer com que a FFT e sua inversa funcionem em módulo p no tempo O(n lg n), onde 
operações em palavras de O(lg n) bits demoram um tempo unitário. Considere que o algoritmo conhece 
peu. 


d. Calcule a DFT módulo p = 17 do vetor (0, 5, 3, 7, 7,2, 1, 6). Observe que g = 3 é um gerador de * 17. 


NorTas DO CAPÍTULO 


O livro de Van Loan [343] dá um tratamento extraordinário da transformada rápida de Fourier. Press, Teukolsky, 
Vetterling e Flamery [283, 284] apresentam uma boa descrição da transformada rápida de Fourier e suas aplicações. 
Se quiser uma excelente introdução ao processamento de sinais, uma área bem conhecida de aplicação de FFT, 
consulte os textos de Oppenheim e Schafer [266] e de Oppenheim e Willsky [267]. O livro de Oppenheim e Schafer 
também mostra como tratar casos em que n não é uma potência inteira de 2. 


A análise de Fourier não é limitada a dados unidimensionais. Ela é amplamente usada em processamento de 
imagens para analisar dados em duas ou mais dimensões. Os livros de Gonzalez e Woods [146] e Pratt [281] discutem 
transformadas de Fourier multidimensionais e seu uso em processamento de imagens, e os livros de Tolimieri, An e Lu 
[338] e Van Loan [343] discutem os fundamentos matemáticos de transformadas rápidas de Fourier. 

Cooley e Tukey [77] são amplamente reconhecidos como os criadores da FFT na década de 1960. Na verdade, a 
FFT foi descoberta muito antes dessa data, mas sua importância só foi completamente percebida após o advento dos 
computadores digitais modernos. Embora Press, Teukolsky, Vetterling e Flannery atribuam as origens do método a 
Runge e Kônig em 1924, um artigo de Heideman, Johnson e Burrus [163] afirma que o histórico da FFT remonta à 
época de C. F. Gauss, em 1805. 

Frigo e Johnson [117] desenvolveram uma implementação rápida e flexível da FFT, denominada FFTW (“a 
transformada de Fourier mais rápida do oeste”). A FFTW é projetada para situações que exigem vários cálculos de 
DFT para o mesmo tamanho de problema. Antes de calcular as DFTs, a FFTW executa um “planejador” que, por uma 
série de execuções experimentais, determina como decompor melhor o cálculo da FFT para o tamanho do problema 
dado no computador hospedeiro. A FFTW adapta-se para utilizar a cache do hardware eficientemente e, desde que os 
problemas sejam suficientemente pequenos, a FFTW os resolve com um código otimizado, sem laços. Além disso, a 
FFTW tem a vantagem incomum de demorar o tempo Q (n lg n) para qualquer tamanho n de problema, mesmo quando 
n é um número primo grande. Embora a transformada de Fourier padrão supõe que a entrada representa pontos 
uniformemente espaçados no domínio do tempo, outras técnicas podem aproximar a FFT para dados que não são 
uniformemente espaçados (equiespaçados). O artigo de Ware [348] dá uma visão geral. 


1Ã interpolação é um problema notoriamente complicado do ponto de vista da estabilidade numérica. Embora as abordagens descritas 
aqui sejam matematicamente corretas, pequenas diferenças nas entradas ou erros de arredondamento durante o cálculo podem gerar 
grandes diferenças no resultado. 

2 Muitos outros autores dão uma definição diferente de »: e-2pi/n. Essa definição alternativa tende a ser usada para aplicações de 
processamento de sinais. A matemática subjacente é substancialmente a mesma com qualquer das definições de n. 

30 comprimento n é, na realidade, o que denominamos 2n na Seção 30.1, visto que dobramos a limitação de grau dos polinômios dados 
antes da avaliação. Portanto, no contexto da multiplicação de polinômios, na verdade estamos trabalhando com raízes (2n)-ésimas 
complexas da unidade. 


ÁLGORITMOS DA TEORIA DOS NÚMEROS 


A teoria dos números já foi vista como um assunto belo, mas em grande parte inútil na matemática pura. Hoje, os 
algoritmos da teoria dos números são amplamente utilizados devido, em parte, à criação de esquemas criptográficos 
baseados em números primos grandes. Esses esquemas são viáveis porque é fácil encontrar primos grandes, e são 
seguros porque não sabemos como fatorar eficientemente o produto de primos grandes ou resolver outros problemas 
relacionados, como calcular logaritmos discretos. Este capítulo apresenta alguns dos algoritmos da teoria dos números e 
associados subjacentes a tais aplicações. 

A Seção 31.1 apresenta conceitos básicos da teoria dos números, como divisibilidade, equivalência modular e 
fatoração única. A Seção 31.2 estuda um dos algoritmos mais antigos do mundo: o algoritmo de Euclides para calcular 
o máximo divisor comum de dois inteiros. A Seção 31.3 revê conceitos de aritmética modular. A Seção 31.4 estuda o 
conjunto de múltiplos de um dado número a, módulo n e mostra como determinar todas as soluções para a equação ax 
= b (mod n) usando o algoritmo de Euclides. O teorema chinês do resto é apresentado na Seção 31.5. A Seção 31.6 
considera potências de um dado número a, módulo n e apresenta um algoritmo de elevação ao quadrado repetido para 
calcular eficientemente a, mod n, dados a, b e n. Essa operação está no núcleo do teste de primalidade eficiente e em 
grande parte da criptografia moderna. Em seguida, a Seção 31.7 descreve o sistema de criptografia de chave pública 
RSA. A Seção 31.8 examina um teste de primalidade aleatorizado. Podemos usar esse teste para determinar primos 
eficientemente, tarefa necessária para criar chaves para o sistema de criptografia RSA. Finalmente, a Seção 31.9 revê 
uma heurística simples, mas efetiva para fatorar inteiros pequenos. Não deixa de ser curioso que a fatoração é um 
problema que as pessoas gostariam que fosse intratável, já que a segurança do RSA depende da dificuldade de fatorar 
inteiros grandes. 


Tamanho de entradas e custo de cálculos aritméticos 


Como trabalharemos com inteiros grandes, precisamos ajustar nosso modo de pensar sobre o tamanho de uma 
entrada e sobre o custo de operações aritméticas elementares. 

Neste capítulo, “entrada grande” em geral significa uma entrada que contenha “inteiros grandes”, em vez de uma 
entrada que contenha “muitos inteiros” (como na ordenação). Assim, mediremos o tamanho de uma entrada em termos 
do número de bits exigidos para representar essa entrada, não apenas em termos do número de inteiros na entrada. 
Um algoritmo com entradas inteiras a,, a,, ..., a, é um algoritmo de tempo polinomial se for executado em tempo 
polinomial em relação a lg a,, lg a,, ..., Ig a,, isto é, polinomial em relação aos comprimentos de suas entradas 
codificadas em binário. 

Na maior parte deste livro, verificamos que é conveniente pensar em operações aritméticas elementares 
(multiplicações, divisões ou cálculo de restos) como operações primitivas que demoram uma unidade de tempo. 
Contando o número dessas operações aritméticas que um algoritmo efetua, temos uma base para fazer uma estimativa 
razoável do tempo de execução real do algoritmo em um computador. Contudo, operações elementares podem ser 
demoradas quando suas entradas são grandes. Assim, torna-se conveniente medir quantas operações com bits um 
algoritmo da teoria dos números exige. Nesse modelo, multiplicar dois inteiros de bits pelo método comum utiliza (2) 


operações com bits. De modo semelhante, podemos dividir um inteiro de bits por um inteiro mais curto ou tomar o 
resto da divisão de um inteiro de bits quando dividido por um inteiro mais curto no tempo (2) por algoritmos simples 
(veja o Exercício 31.1-12). São conhecidos métodos mais rápidos. Por exemplo, um método simples de divisão e 
conquista para multiplicar dois inteiros de bits tem um tempo de execução (Is3) e o método mais rápido conhecido tem 
um tempo de execução ( lg lg le ). Porém, para finalidades práticas, o algoritmo (2) frequentemente é melhor, e 
utilizaremos esse limite como base para nossas análises. 

Neste capítulo, geralmente analisamos algoritmos em termos do número de operações aritméticas e também do 
número de operações com bits que eles exigem. 


31.1 Noções DA TEORIA ELEMENTAR DOS NÚMEROS 


Esta seção apresenta uma breve revisão de noções da teoria elementar dos números concernentes ao conjunto = 
€...,—2,-1,0, 1,2,...; de inteiros e ao conjunto = (0, 1, 2, ...! de números naturais. 


Divisibilidade e divisores 

A noção de que um inteiro é divisível por outro é fundamental na teoria dos números. A notação d | a (leia “d 
divide a”) significa que a = kd para algum inteiro k. Todo inteiro divide 0. Sea >0e d|a, então |d<lal. Sed |a, 
então dizemos também que a é um múltiplo de d. Se d não divide a, escrevemos d f a. 

Sed|aed> 0, dizemos que d é um divisor de a. Note que d | a se e somente se —d | a, de modo que não há 
nenhuma perda de generalidade se definirmos os divisores como não negativos, entendendo-se que o negativo de 
qualquer divisor de a também divide a. Um divisor de um inteiro não nulo a é no mínimo 1, mas não maior que /a|. Por 
exemplo, os divisores de 24 são 1, 2,3,4,6,8,12€e 24. 

Todo inteiro positivo a é divisível pelos divisores triviais 1 e a. Os divisores não triviais de a são os fatores de a. 
Por exemplo, os fatores de 20 são 2, 4,5 e 10. 


Números primos e compostos 


Um inteiro a > 1 cujos únicos divisores são os divisores triviais 1 e a é chamado número pri- mo (ou, mais 
simplesmente, primo). Primos têm muitas propriedades especiais e desempenham um papel fundamental na teoria dos 
números. Os primeiros 20 primos, em ordem crescente, são 


dado os de Ms Ã3, 17, 19,23,20:31,37,41,43,47,53,39,61,67,.71. 


O Exercício 31.1-2 pede que você prove que existe um número infinito de primos. Um inteiro a > 1 que não é 
primo é denominado número composto (ou, mais simplesmente, composto). Por exemplo, 39 é composto porque 3 | 
39. O inteiro 1 é denominado unidade e não é primo nem composto. De modo semelhante, o inteiro O e todos os 
inteiros negativos não são primos nem compostos. 


Teorema da divisão, restos e equivalência modular 


Dado um inteiro n, podemos repartir os inteiros entre os que são múltiplos de n e os que não são múltiplos de n. 
Grande parte da teoria dos números é baseada em um refinamento dessa partição pela classificação dos não múltiplos 
de n de acordo com seus restos quando divididos por n. O teorema a seguir é a base para esse refinamento. Omritimos 
a prova (mas veja, por exemplo, Niven e Zuckerman [265]). 


Teorema 31.1 (Teorema da divisão) 


Para qualquer inteiro a e qualquer inteiro positivo n, existem inteiros únicos q er tais que0<r<ea=qn+r. 


O valorg= anéo quociente da divisão. O valor r = a mod n é o resto da divisão. Temos que n | a se e 
somente se a mod n = 0. 

Podemos repartir os inteiros em n classes de equivalência, de acordo com seus restos módulo n. A classe de 
equivalência módulo n que contém um inteiro a é 


lal,=tla+kn:keZ). 


Por exemplo, [3/7 = f..., —11, —4, 3, 10, 17, ...:; também podemos representar esse conjunto por [-4]7 e [1077. 
Usando a notação definida na página 40, podemos dizer que escrever a & [b], é o mesmo que escrever a = b. O 
conjunto de todas essas classes de equivalência é 


Z =I[a],:0<a<n-1) (31.1) 
Quando vir a definição 
Z =10,1,.,n=1), (31.2) 


você a deve ler como equivalente à equação (31.1), entendendo que O representa [0], 1 representa [1],, e assim por 
diante; cada classe é representada por seu menor elemento não negativo. Contudo, você deve ter em mente as classes 
de equivalência subjacentes. Por exemplo, se nos referirmos a — 1 como um membro de ,, na verdade estamos nos 
referindo a [n — 1], já que-1=n— 1 (mod n). 


Divisores comuns e máximos divisores comuns 


Se d é um divisor de a e também um divisor de b, então d é um divisor comum de a e b. Por exemplo, os 
divisores de 30 são 1, 2,3,5, 6, 10, 15 e 30, e portanto os divisores comuns de 24 e 30 são 1, 2, 3 e 6. Observe que 
1 é um divisor comum de quaisquer dois inteiros. 

Uma propriedade importante dos divisores comuns é que 


d|laed|bimplicad |(a+b)ed|(a-—b) (31.3) 
De modo mais geral, temos que 

d|aed|bimplica d | (ax + by) (31.4) 
para quaisquer inteiros x e y. Além disso, se a | b, então |a| < |b| ou b = 0, o que implica que 

albeb|aimplicaa =+b. (31.5) 


O máximo divisor comum de dois inteiros a e b, ambos não nulos, é o maior dos divisores comuns de a e be é 
denotado por mdc(a, b). Por exemplo, mdc(24, 30) = 6, mdc(5, 7) = 1 e mde(0, 9) = 9. Se a e b são não nulos, então 
mdc(a, b) é um inteiro entre 1 e min(/al, |b)). Definimos mdc(0, 0) como 0; essa definição é necessária para que as 
propriedades padrões da função mdc (como a equação (31.9) a seguir) sejam universalmente válidas. 

As seguintes são propriedades elementares da função mdc: 


mdc(a, b) = mdc(b, a), (31.6) 
mdc(a, b) = mdc (—a, b), (31.7) 
mdc(a, b) se mdc(j|a], |b|), (31.8) 
mdc(a, 0) — jal, (31.9) 


mdc(a, ka) = |a| para qualquer k E Z. (31.10) 


O teorema apresentado a seguir dá uma caracterização alternativa e útil de mdc(a, b). 


Teorema 31.2 
Se a e b são inteiros quaisquer e não nulos, então mdc(a, b) é o menor elemento posítivo do conjunto fax + by :x, 
E |? de combinações lineares de a e b. 


Prova Seja s a menor combinação positiva dessas combinações lineares de a e b, e seja s = ax + by para algum x, y 
E .Sejag= a/s. Então a equação (3.8) implica 


amods = a-—gs 
= q q(ax+ by) 
= (1 = qx) + bl-qu). 


e, portanto, a mod s também é uma combinação linear de a e b. Porém, como O < a, temos que a mod s = O porque s 
é a menor combinação positiva dessas combinações lineares. Portanto, temos que s | a e, por raciocínio análogo, s | b. 
Assim, s é um divisor comum de a e b, então mde(a, b) > s. A equação (31.4) implica que mdc(a, b) | s, visto que 
mdc(a, b) divide a e b, e s é uma combinação linear de a e b. Porém, mdc(a, b) | s e s > O implicam que mdc(a, b) < s. 
Combinando mdc(a, b) > s e mde(a, b) < s obtemos mdc(a, b) = s. Concluímos que s é o máximo divisor comum de a 
e b. 


Corolário 31.3 


Para quaisquer inteiros a e b, sed|a e d|b, então d | mdce(a, b). 


Prova Esse corolário decorre da equação (31.4) porque mdc(a, b) é uma combinação linear de a e b pelo Teorema 
31,2. 


Corolário 31.4 
Para todos os inteiros a e b e qualquer inteiro não negativo n, 
mdc(an, bn) = n mdc(a, b). 


Prova Se n = 0, o corolário é trivial. Se n > 0, então mdc(an, bn) é o menor elemento positivo do conjunto fanx + 
bny : x, , € ), que é n vezes o menor elemento positivo do conjunto fax + by: x,y, e +. 


Corolário 31.5 


Para todos os inteiros positivos n, a e b, sen | ab e mde(a, n) = 1, então n | b. 


Prova Deixamos a prova para o Exercício 31.1-5. 


Inteiros primos entre si 


Dois inteiros a e b são primos entre si (também: cada um é primo com o outro) se seu único divisor comum é 1, 
isto é, se mdc(a, b) = 1. Por exemplo, 8 e 15 são primos entre si já que os divisores de 8 são 1, 2, 4 e 8, enquanto os 
divisores de 15 são 1,3, 5 e 15. O teorema a seguir afirma que, se cada um de dois inteiros e um inteiro p são primos 
entre si, então seu produto e p são primos entre si. 


Teorema 31.6 
Para quaisquer inteiros a, b e p, se mdc(a, p) = 1 e mdc(b, p) = 1, então mdc(ab, p) = 1. 
Prova Decorre do Teorema 31.2 que existem inteiros x, y, x 'e "tais que 


ax+py=1, 
bx'+py'=1. 


Muliplicando essas equações e reorganizando, temos 
ab(xx) + p(ybx'+y'ax+pyy)=1. 


Assim, visto que 1 é uma combinação linear positiva de ab e p, usamos o Teorema 31.2 para concluir a prova. 


Os inteiros n,, n,, ..., n, são primos dois a dois se, sempre que i  j, temos mdc(n,, nj =1. 


Fatoração única 


Um fato elementar mas importante sobre a divisibilidade por primos é dado a seguir. 


Teorema 31.7 


Para todos os primos p e todos os inteiros a, b, se p | ab, então p |a oup | b (ou ambos). 


Prova Suponha, por contradição, que p |ab, mas quep  aep b. Assim mdce(a, p) = 1 e mde(b, p) = 1, já que 


os únicos divisores de p são 1 e p, e estamos supondo que p não divide a nem b. Então, o Teorema 31.6 implica que 
mdc(ab, p) = 1, contradizendo nossa hipótese de que p | ab, já que p | ab implica mde(ab, p) = p. Essa contradição 


conclui a prova. 


Uma consequência do Teorema 31.7 é que um inteiro tem uma fatoração única em primos. 


Teorema 31.8 (Fatoração única) 


Há exatamente um modo de escrever qualquer inteiro composto a como um produto da forma 
1=Pipj Pp; 
| DERRRE ... 3 
1W2 r 
onde os p, são primos, p, <p, <...<p,€os e, são inteiros positivos. 
Prova Deixamos a prova para o Exercício 31.1-11. 


Como exemplo, o número 6.000 pode ser fatorado unicamente em primos como 24 - 3 - 53. 


Exercícios 


31.1-1 Proveque,sea>b>0ec=a+b, então c mod a = b. 


31.1-2 Prove que existe um número infinto de primos. (Sugestão: Mostre que nenhum dos primos p,, Pp», .. 


divide (p,p, ... pJ+ 1.) 


31.1-3 Proveque,sea|beb |c, então a |c. 


o Pk 


31.1-4 Prove que, se p é primo e 0 <k <p, então mdc(k, p) = 1. 
31.1-5 Prove o Corolário 31.5. 


31.1-6 
a 


Prove que, se p é primo e O<k <p, então P/ . Conclua que para todos os inteiros a, b e primos p, (a 
+bp=a,+b, (mod p). 


31.1-7 Prove que, se a e b são quaisquer inteiros positivos tais que a | b, então (x mod b) mod a = x mod a para 
qualquer x. Prove, sob as mesmas hipóteses, que x = y (mod b) implica x = y (mod a) para quaisquer inteiros 
NE: 


31.1-8 Para qualquer inteiro k > 0, dizemos que um inteiro n é uma k-ésima potência se existe um inteiro a tal que 
a, =n. Além disso, n > 1 é uma potência não trivial se é uma k-ésima potência para algum inteiro k > 1. 
Mostre como determinar se um determinado inteiro n de bits é uma potência não trivial em tempo polinomial 
em. 


31.1-9 Prove as equações (31.6)-(31.10). 


31.1-10 Mostre que o operador mdc é associativo. Isto é, prove que, para todos os inteiros a, b e c, mdc(a, mdc(b, 
c)) = mdc(mdc(a, b), c) 


31.1-11 * Prove o Teorema 31.8. 


31.1-12 Dê algoritmos eficientes para as operações de dividir um inteiro de bits por um inteiro mais curto e de tomar o 
resto da divisão de um inteiro de bits por um inteiro mais curto. Seus algoritmos devem ser executados no 


tempo (2). 


31.1-13 Dê um algoritmo eficiente para converter um determinado inteiro (binário) de bits para representação 
decimal. Demonstre que, se a multiplicação ou divisão de inteiros cujo comprimento é no máximo demorar o 
tempo M(), então podemos converter de binário para decimal no tempo (M() lg ). (Sugestão: Use uma 
abordagem de divisão e conquista, obtendo as metades superior e inferior do resultado com recursões 
separadas.) 


31.2 Máximo DIVISOR COMUM 


Nesta seção, descrevemos o algoritmo de Euclides para calcular eficientemente o máximo divisor comum de dois 
inteiros. Quando analisarmos o tempo de execução, veremos uma conexão surpreendente com os números de 
Fibonacci, que produz uma entrada do pior caso para o algoritmo de Euclides. 

Nesta seção, nos limitaremos a inteiros não negativos. Essa restrição é justificada pela equação (31.8), que declara 
que mde(a, b) = mdce(l|al, |b|). 

Em princípio, podemos calcular mdc(a, b) para inteiros positivos a e b pelos fatores primos de a e b. De fato, se 


a= Pºp'...p* (31.11) 


a=PApf...ph (31.12) 


sendo que expoentes nulos são usados para tornar o conjunto de primos p,, p», ..., p, igual para a e b, então, como o 
Exercício 31.2-1 pede para mostrar, 


mde(a, b) = pe) pone da) pri (31.13) 


Porém, como mostraremos na Seção 31.9, os melhores algoritmos existentes para fatoração não são executados 
em tempo polinomial. Assim, parece improvável que essa abordagem para calcular o máximo divisor comum produza 
um algoritmo eficiente. 

O algoritmo de Euclides para calcular máximos divisores comuns é baseado no teorema a seguir. 


Teorema 31.9 (Teorema de recursão para o MDC) 
Para qualquer inteiro não negativo a e qualquer inteiro positivo b, 
mdc(a, b) = mdce(b, a mod b). 
Prova Mostraremos que mdc(a, b) e mdc(b, a mod b) são divisíveis entre si, de modo que, pela equação (31.5), eles 


devem ser iguais (já que ambos são não negativos). 


Primeiro, mostramos que mdc(a, b) | mdc(b, a mod b). Se fizermos d = mdc(a, b), então d |a e d | b. Pela equação 
(3.8), amod b=a — gb, onde q = a/b. Visto que a mod b é uma combinação linear de a e b, a equação (31.4) 
implica que d | (a mod b). Portanto, visto que d |b e d | (a mod b), o Corolário 31.3 implica que d | mdc(b, a mod b) 
ou, o que é equivalente, 


mdc(a, b) | mdc(b, a mod b) (31.14) 


Mostrar que mdc(b, a mod b) | mdc(a, b) é quase a mesma coisa. Se agora fizermos d = mdc(b, a mod b), então 
d|bed|(amod b). Visto que a = gb + (a mod b), onde q = a/b, temos que a é uma combinação linear de b e (a 
mod b). Pela equação (31.4), concluímos que d | a. Como d |b e d | a, temos que d | mdc(a, b) pelo Corolário 31.3 
ou, o que é equivalente, 


mdc(b, a mod b) | mdc(a, b). (31.15) 


Usando a equação (31.5) para combinar as equações(31.14) e (31.15) concluímos a prova. 


Algoritmo de Euclides 


Aobra Elementos, de Euclides (aproximadamente 300 a.C.), descreve o algoritmo para mdc que apresentamos a 
seguir, embora sua origem talvez seja ainda mais remota. Expressamos o algoritmo de Euclides como um programa 
recursivo baseado diretamente no Teorema 31.9. As entradas a e b são inteiros não negativos arbitrários. 


Eucrip(a, b) 

1 TE h== 

z return q 

3 else return EucLID(b,a mod b) 


Como exemplo da execução de Evcrm, considere o cálculo de mdc(30, 21): 


EucLiD(30,21) = EucrrD(21,9) 
= EucLID(9, 3) 
= EucrrD(3, 0) 
Etta 


Esse cálculo chama EucLi recursivamente três vezes. 

A correção de Eucrm decorre do Teorema 31.9 e da seguinte propriedade: se o algoritmo retorna a na linha 2, 
então b = 0, de modo que a equação (31.9) implica que mdc(a, b) = mdc(a, 0) = a. O algoritmo não pode executar 
recursões indefinidamente, já que o segundo argumento diminui estritamente em cada chamada recursiva e é sempre não 
negativo. Assim, EucLm sempre termina com a resposta correta. 


Tempo de execução do algoritmo de Euclides 


Analisamos o tempo de execução do pior caso de EucLim em função do tamanho de a e b. Supomos, sem perda de 
generalidade, que a > b > 0. Para justifcar essa hipótese, observe que , se b > a > 0, então Evcrn(a, b) faz 
imediatamente a chamada recursiva Eucrin(b, a). Isto é, se o primeiro argumento é menor que o segundo argumento, 
EvcLip gasta uma chamada recursiva permutando seus argumentos e depois prossegue. De modo semelhante, se b = a > 
0, o procedimento termina após uma chamada recursiva, já que a mod b = 0. 

O tempo de execução global de Eucm é proporcional ao número de chamadas recursivas que ele executa. Nossa 
análise usa os números de Fibonacci F,., definidos pela recorrência (3.22). 


Lema 31.10 


Sea>b> 1eachamada Eucn(a, b) executa k > 1 chamadas recursivas, então a>F,+2eb>F +1. 


Prova A prova é por indução em relação a k. Para a base da indução, seja k = 1. Então, b > 1 = F, e, como a > b, 
devemos tera > 2 = F,. Visto que b > (a mod b), em cada chamada recursiva o primeiro argumento é estritamente 
maior que o segundo; a hipótese a > b é válida para cada chamada recursiva. 


Suponha indutivamente que o lema vale se forem executadas k — 1 chamadas recursivas; então, provaremos que o 
lema vale para k chamadas recursivas. Visto que k > 0, temos b > 0, e Evucrim (a, b) chama Evcrm(b, a mod b) 
recursivamente que, por sua vez, efetua k — 1 chamadas recursivas. Então, a hipótese de indução implica que b> F, +1 
(provando assim uma parte do lema) e a mod b > F,. Temos 


b + (a mod b) = b+ (a — bla/b!) 
<a, 


visto quea>b>0 implica a/b>1. Assim, 


a>b+ (amod b) 


O teorema a seguir é um corolário imediato desse lema. 


Teorema 31.11 (Teorema de Lamé) 


Para qualquer inteiro k > 1I,sea>b>1eb<F,+1, então a chamada Evcrn(a, b) faz menos de k chamadas 
recursivas. 


Podemos mostrar que o limite superior do Teorema 31.11 é o melhor possível mostrando que a chamada Eucrin(F, 
+1, HF) faz exatamente k — 1 chamadas recursivas quando k > 2. Usamos indução em relação a k. Para o caso-base, k 
=2,e a chamada Eucun(F,, F,) faz exatamente uma chamada recursiva, a EvcLin(1, 0). (Temos de começar em k = 2 
porque, quando k = 1 não temos F2 > F1.) Para o passo de indução, suponha que EucLin(F, , F,-1) faz exatamente k — 
2 chamadas recursivas. Para k > 2, temos F, > Fk-1>0€eF +1=F +F-1,e, assim, pelo Exercício 31.1-1, 
temos F, +! mod F, = F, -1. Assim, temos 


mdc(F 


k+1? 


EF) = mde(F,, F,, mod F) 
= mde(F,.F,.,) 


Portanto, a chamada Eucum (HF, + 1, F,) executa uma recursão a mais que a chamada Evcim (F,, F, 4) ou 
exatamente k — 1 vezes, atingindo o limite superior dado pelo Teorema 31.11. 

Visto que F, é aproximadamente q k 5, onde f é a razão áurea (1+"5)/ 2 definida pela equação (3.24), o número 
de chamadas recursivas em Evccm é O(lg b). (Veja um limite mais preciso no Exercício 31.2-5.) Portanto, se chamarmos 
Evccip para dois números de bits, então o procedimento executa O() operações aritméticas e O(3) operações de bits 
(supondo que multiplicação e divisão de números de bits demorem O(2) operações com bits. O Problema 31-2 pede 
que você mostre um limite O(2) para o número de operações com bits. 


A forma estendida do algoritmo de Euclides 


Agora, reescrevemos o algoritmo de Euclides para calcular informações adicionais úteis. Especificamente, 
estendemos o algoritmo para calcular os coeficientes inteiros x e y tais que 


d = mdc(a, b) = ax + by. (31.16) 


Observe que x e y podem ser zero ou negativos. Verificaremos mais adiante que esses coeficientes são úteis para 
calcular inversos multiplicativos modulares. O procedimento ExrenpeD-EucL in toma como entrada um par de inteiros não 
negativos e retorna uma tripla da forma (d, x, y) que satisfaz a equação (31.16). 


ExTENDED-EUCLID(a, b) 


2 return (4,1,0) 

3 else (d",x”,y”) = ExreNDED-EucLID(b, a mod b) 
4 (d, x,y) = (d',y',x' — la/bly”) 

5 return (d, x,y) 


A Figura 31.1 ilustra o cálculo de mdc(99, 78) por Exrenpen-Evccip. 

O procedimento ExrenDeD-EvucLip é uma variação do procedimento Eucri. A linha 1 é equivalente ao teste “b == (0? 
na linha 1 de Evcrm. Se b = 0, então ExreneD-Evucrip retorna não somente d = a na linha 2, mas também os coeficientes 
x=1 ey= 0, de modo que a = ax + by. Se b £ 0, Extenven-Eucp primeiro calcula (d”, y', x”) tal que d” = mdce(b, a 
mod b) e 


d" = bx" + (a mod b)y”. (31.17) 


| 
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Figura 31.1 Cálculo de mdc(99,78) por Exrenvep-Eucuip. Cada linha mostra umnível da recursão: os valores das entradas a e b,o valor 


calculado a/b e os valores d, x e y retornados. A tripla (d, x, y) retornada se torna a tripla (d', x”, y) usada no cálculo do próximo nível 
mais alto de recursão. A chamada Exrenvep-Eucrin(99, 78) retorna (3, -11, 14) e, assim, mdc(99, 78)=3=99 - (-11)+78 - 14. 
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Como em EvcLin, temos nesse caso d = mdce(a, b) = d' = mdc(b, a mod b). Para obter x e y tais que d = ax + by, 
começamos reescrevendo a equação (31.17) usando a equação d = d”e a equação (3.8): 


d=bx'+(a-bla/bl)y 
= ay + b(x' —la/bly”. 


Assim, escolher x = y'ey=x'— a/b y' satisfaz a equação d = ax + by, provando a correção de Exrenpep- 
EucLiD. 


Visto que o número de chamadas recursivas feitas em Euccip é igual ao número de chamadas recursivas feitas em 
ExrenDED-EucLiD, OS tempos de execução de EucLin E ExrenDeD-Eucrip são iguais, a menos de um fator constante. Isto é, 
paraa>b>0, o número de chamadas recursivas é O(lg b). 

Exercícios 
31.2-1 Prove que as equações (31.11) e (31.12) implicam a equação (31.13). 
31.2-2 Calcule os valores (d, x, y) que a chamada Exrenpep-Eucrim(899, 493) retorna. 
31.2-3 Prove que, para todos os inteiros a, k e n, 

mdc(a, n) = mde(a + kn, n). 


31.2-4 Reescreva EucLip em uma forma iterativa que use somente uma quantidade constante de memória (isto é, 
armazene apenas um número constante de valores inteiros). 


31.2-5 Sea>b>0, mostre que a chamada Evcun(a, b) faz no máximo 1 + logib chamadas recursivas. Melhore esse 
limite para 1 + logr (b/mde(a, b)). 


31.2-6 O que Exrenvep-EvcLin(Fk + 1, Fo) retorna? Prove a correção da sua resposta. 


31.2-7 Defina a função mdc para mais de dois argumentos pela equação recursiva mdc(a,, a,, ..., a) = mdce(a,, 


mdc(a,, a,, ..., a,))). Mostre que a função mdc retorna a mesma resposta, independentemente da ordem na 
qual seus argumentos são especificados. Mostre também como determinar inteiros x,, X,, ..., X, tais que 
mdc(a,, 4, ..,a )= axo + ax, ..., + ax, Mostre que o número de divisões executadas por seu algoritmo 


é O(n + le(max (a, a, ..., a, ))). 


31.2-8 Defina mmc(a,, a,, ..., a,) como o mínimo múltiplo comum dos n inteiros a,, a,, ..., a,, isto é, o menor 
interro não negativo que é um múltiplo de cada a,. Mostre como calcular mmc(a,, a,, ..., a,) eficientemente 
usando a operação mdc (de dois argumentos) como uma sub-rotina. 


31.2-9 Prove que n,, n,, n, e n, são primos dois a dois se e somente se mdc(n,n,, n,,n,) = mdc (n,n,, n,n;) = 1. 


De modo mais geral, mostre que n,, n,, ..., n, São primos entre si aos pares se e somente se um conjunto de lg 
k pares de números derivados de n, são primos entre si. 


31.3 ARITMÉTICA MODULAR 


Informalmente, podemos entender a aritmética modular como a aritmética usual com inteiros, exceto que, se 
estamos trabalhando módulo n, todo resultado x é substituído pelo elemento de (0, 1,...,n — 1!, que é equivalente a x, 
módulo n (isto é, x é substituído por x mod n). Esse modelo informal é suficiente se nos limitarmos às operações de 
adição, subtração e multiplicação. Um modelo mais formal para aritmética modular, que damos agora, é mais bem 
descrito dentro da estrutura da teoria de grupos. 


Grupos finitos 


Um grupo (S, º) é um conjunto S aliado a uma operação binária º definida em S para a qual são válidas as 
seguintes propriedades: 
1. Fechamento: Paratodoa,b E S,temosa sh ES. 
2. Identidade: Existe um elemento e E S, denominado identidade do grupo, talqueeesa=ae=a para todo a 
Es. 
3. Associatividade: Para todo a, b, c E S, temos (ae b)ec=ae(boc). 
4. Inversos: Para cadaa ES, existe um elemento único b E S, denominado inverso de a, tal que 


apb=bea=e. 


Como exemplo, considere o conhecido grupo (, +) dos inteiros | na operação de adição: O é a identidade, e o inverso 
de a é —a. Se um grupo (S, &) satisfaz a lei comutativa a O b=bº a paratodoa,b E S, então ele é um grupo 
abeliano. Se um grupo (S, º) satisfaz |S| < oo, então ele é um grupo finito. 


Grupos definidos por adição e multiplicação modulares 


Podemos formar dois grupos abelianos finitos usando adição e multiplicação módulo n, onde n é um inteiro 
positivo. Esses grupos são baseados nas classes de equivalência dos inteiros módulo n, definidas na Seção 31.1. 

Para definir um grupo em ,, precisamos ter operações binárias adequadas, que obtemos redefinindo as operações 
comuns de adição e multiplicação. É fácil definir operações de adição e multiplicação para , porque a classe de 
equivalência de dois inteiros determina unicamente a classe de equivalência de sua soma ou produto. Isto é, se a = a' 
(mod n) e b = b' (mod n), então 


q 
+ 
Ss 
| 
a. 
+ 
e 
E 
Q 
O 
as 


ab = ab (mod n). 

E e]9jkJgêõioggggoooK:eê:::::::xxxxx=xw.w.w.=..::::. 
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(a) (b) 


Figura 31.2 Dois grupos finitos. As classes de equivalência são denotadas por seus elementos representantes. (a) O grupo (6, +6 ). (b) 
(O) grupo (15, “15). 


Assim, definimos adição e multiplicação módulo n, denotadas por +, e -,, por: 
la], +, [b], = [a + b], (31.18) 
[al, "n [b], == [ab], k 


(Podemos definir, de modo semelhante, a subtração em , por [a], — , [b], = [a — b],, mas a divisão é mais 
complicada, como veremos.) Esses fatos justificam a prática comum e conveniente de usar o menor elemento não 
negativo de cada classe de equivalência como seu representante ao executar cálculos em . Somamos, subtraímos e 
multiplicamos como sempre, usando os representantes, mas substituímos cada resultado x pelo representante de sua 
classe (isto é, por x mod n). 

Usando essa definição de adição módulo n, definimos o grupo aditivo módulo n como (,, +). O tamanho do 
grupo aditivo módulo n é | | = n. A Figura 31.2(a) apresenta a tabela de operação para o grupo (6, +6). 


Teorema 31.12 
O sistema (,, +.) é um grupo abeliano finito. 


Prova A equação (31.18) mostra que (,, +.) é fechado. A associatividade e a comutatividade de +, decorrem da 
associatividade e da comutatividade de +: 


(lal, + [bl + cl, =[a+b), + acl, 
=| a-+b) fe 
=[a+(b+o) | 
=lah+lb+c), 
— al, + (bh + ch) 
lah +elbh  =la+b), 
=[b+al, 
= [b|, E al, 


O elemento identidade de (, +,) é O (isto é, [0],). O inverso (aditivo) de um elemento a (isto é, de [a] ) É o 
elemento —a (isto é, [-a], ou [n — a] ), visto que [a], +, [-a], = [a — a], = [0]... 

Usando a definição de multiplicação módulo n, definimos o grupo multiplicativo módulo n como (*, - .). Os 
elementos desse grupo são o conjunto *. de elementos em , que são primos com n: 


Z = ([al, e Z, : mde(a,n) = 1). 


Para ver que *, é bem definido, observe que, para O < a <n, temos a = (a + kn) (mod n) para todos os inteiros k. 
Então, pelo Exercício 31.2-3, mdc(a, n) = 1 implica mdce(a + kn, n) = 1 para todos os inteiros k. Visto que [a], = ta + 
kn :k E 3,0 conjunto * . é bem definido. Um exemplo de tal grupo é 


Z:, = (1,2,4,7,8,11,13,14), 


onde a operação de grupo é multiplicação módulo 15. (Aqui, denotamos um elemento [a]! por a,;; por exemplo, 
denotamos [7]!5 por 7.) A Figura 31.2(b) mostra o grupo (*1s, -,.). Por exemplo, 8 - 11 = 13 (mod 15), trabalhando 
com *. A identidade para esse grupo é 1. 


Teorema 31.13 


O sistema (* ) é um grupo abeliano finito. 


nº n 


Prova O Teorema 31.6 implica que (*., -.) é fechado. Associatividade e comutatividade podem ser provadas para -, 
como foram para +, na prova do Teorema 31.12. O elemento identidade é [1], Para mostrar a existência de inversos, 
seja a um elemento de (*, ), e seja (d, x, y) retornado por Exrenvep-EvcLin(a, n). Então d=1,jáquea E *.,e 


nº 


ax +ny=1 (31.19) 


ou, o que é equivalente, 
ax = 1 (mod n). 


Assim, [x], é um inverso multiplicativo de [a], módulo n. Além disso, afirmamos que [x], E ,. Para ver por que, a 
equação (31.19) demonstra que a menor combinação linear possível de x e n deve ser 1. Portanto, o Teorema 31.2 
implica que mde(x, n) = 1. Adiamos para o Corolário 31.26, a prova de que inversos são unicamente definidos. 


Como exemplo do cálculo de inversos multiplicativos, suponha que a = 5 en = 11. Então, Exrenpep-BucLin(a, n) 
retorna (d, x, y) = (1, —2, 1), de modo que 1 = 5 - (2) + 11 - 1. Assim, [-2]!! (isto é, [9]!1) é o inverso multiplicativo 
de [5]!1. 

Quando trabalharmos com os grupos (, +) e ( *, : ,) no restante deste capítulo, seguremos a prática 
conveniente de denotar classes de equivalência por seus elementos representantes e denotar as operações +, e - pelas 
notações aritméticas usuais + e - (ou justaposição, de modo que ab = a - b), respectivamente. Além disso, equivalências 
módulo n também podem ser interpretadas como equações em ,. Por exemplo, as duas declarações seguintes são 
equivalentes: 


ax = b (mod n). 


lal, a 1x), = [bl, - 


Como conveniência adicional, às vezes, nos referimos a um grupo (S, 2) somente como S quando a operação é 
entendida pelo contexto. Assim, podemos nos referir aos grupos (,, +,) e (*», * ,) como e *, respectivamente. 

Denotamos o inverso (multiplicativo) de um elemento a por (a-1 mod n). Divisão em * . é definida pela equação a / 
b = ab-1. Por exemplo, em 15 temos que 7-1 = 13 (mod 15), visto que 7 - 13=91 = 1 (mod 15), de modo que 4/7 = 4 
“13 =7 (mod 15). 

O tamanho de *, é denotado por f(n). Essa função, conhecida como função fi de Euler, satisfaz a equação 


ó(n)=n ll 


p:pé primoe pln 


fes a (31.20) 
p 


de modo que p percorre todos os primos que dividem n (inclusive o próprio n, se n é primo). Não provaremos essa 
fórmula aqui. Intuitivamente, começamos com uma lista dos n restos £0, 1,...,n — 1; e depois, para cada primo p que 
divide n, cancelamos todos os múltiplos de p na lista. Por exemplo, como os divisores primos de 45 são 3 € 5, 


1 ] 
ne - fr! 


- Bl 


= 24 


Se p é primo, então *= (1,2,..,p-1lt e 


óp) = p 


(À 31.21 
; (31.21) 
= p-1 


Se n é composto, então f (n) <n — 1, mas pode-se mostrar que 


dio E=—+ (31.22) 
ºInlnn+d 
paran > 3, onde = 0,5772156649... é a constante de Euler. Um limite inferior um pouco mais simples (porém mais 
relaxado) para n > 5 é 


n 
ó(n) > 


6Inlnn (81.28) 


O limite inferior (31.22) é essencialmente o melhor possível, visto que 


lim inf RR =" 
mo n/Inlnn (31.24) 
Subgrupos 


Se (8, 2) é um grupo, S' € Se (S”, 2) também é um grupo, então (S”, 2) é um subgrupo de (S, º). Por exemplo, 
os inteiros pares formam um subgrupo dos inteiros para a operação de adição. O teorema a seguir dá uma ferramenta 
útil para reconhecer subgrupos. 


Teorema 31.14 (Um subconjunto fechado não vazio de um grupo finito é um subgrupo) 
Se (S, €) é um grupo finito e S” é qualquer subconjunto não vazio de Stalquea 9 b E S'paratodoa, b Es, 
então (S”, €) é um subgrupo de (S, €). 


Prova Deixamos a prova para o Exercício 31.3-3. 


Por exemplo, o conjunto f0, 2, 4, 6) forma um subgrupo de 8, já que é não vazio e fechado pela operação + (isto 
é, é fechado para +8). 
O teorema a seguir dá uma restrição extremamente útil para o tamanho de um subgrupo; omitimos a prova. 


Teorema 31.15 (Teorema de Lagrange)) 
Se (8, 2) é um grupo finito e (S”, 2) é um subgrupo de (S, º), então |S” é um divisor de |S]. 


Um subgrupo S" de um grupo S é um subgrupo próprio se S' £ S. Usaremos o corolário a seguir na análise que 
fazemos na Seção 31.8 do procedimento de teste de primalidade de Miller-Rabin. 


Corolário 31.16 
Se S' é um subgrupo próprio de um grupo finito S, então |S'| < |S|/2. 


Subgrupos gerados por um elemento 


O Teorema 31.14 nos dá um modo fácil para produzir um subgrupo de um grupo fino (S, º): escolha um elemento 
a e tome todos os elementos que podem ser gerados de a usando a operação de grupo. Especificamente, defina a, 
para k > 1 por 


k 
1º -DBa-aB4a1B..Ba 


i=1 k 


Por exemplo, se tomarmos a = 2 no grupo 6, a sequência a«, do), ... €2,4,0,2,4,0,2,4,0,.... 
No grupo ,, temos a. = ka mod n, e no grupo *, temos a (k) = a, mod n. Definimos o sub-grupo gerado por a, 
denotado por (a) ou ((a), ?), por 


=>, 


Dizemos que a gera o subgrupo (a), ou que a é um gerador de (a). Visto que S é finito, (a) é um subconjunto finito de 
S, possivelmente incluindo todo o conjunto S. Como a associatividade de & implica 


at) (B at) e at +)) : 
(a) é fechado e, portanto, pelo Teorema 31.14, (a) é um subgrupo de S. Por exemplo, em 6, temos 
(0) = 10), 
(1) = (0,1,2,3,4,5), 
2) =0, 2,4). 


De modo semelhante, em *, temos 


(1) = (1), 
Rr=(l,2,4, 
(3) = (1,2,3,4,5,6). 


A ordem de a (no grupo 5), denotada por ord(a), é definida como o menor inteiro positivo 1 tal que a?) = e. 


Teorema 31.17 
Para qualquer grupo finito (S, º) e qualquer a E S, a ordem de um elemento é igual ao tamanho do subgrupo que ele 
gera ou ord(a) = Ka). 


Prova Seja t = ord(a). Visto que a) =eecat)=a)Pag)=ag)parak>1,sei> rt, então aç) = aj) para algum; < 
i. Assim, à medida que geramos elementos por a, não vemos nenhum elemento depois de a). Portanto, (a) = ta, Ay 
«403 e Ka) < t. Para mostrar que Ka)| > t, mostramos que cada elemento da sequência a, dy -.., a) é distinto. 
Suponha, por contradição, que a, = a, para algum i e j que satisfaça | <i<; <t. Então, a(+) = ad+) para k > 0. 
Mas essa igualdade implica que açH(! -)) = ay +(! -)) = e, uma contradição, já que i + (t — j) < t, mas t é o menor valor 
posttivo tal que a, = e. Portanto, cada elemento da sequência a, do, -..» A é distinto, e Ka)| > t. Concluímos que 
ord(a) = Ka). 


Corolário 31.18 
À sequência a, 4», --. é periódica com período t = ord(a); isto é, a) = ay) se e somente se i = j (mod í). 
Compativelmente com o Corolário 31.18, definimos a como e e a(i) como ai mod 1), onde t = ord(a), para todos 


os inteiros 1. 


Corolário 31.19 
Se (S, 2) é um grupo finito com identidade e, então para todo a ES, 
nado E AR 


Prova O teorema de Lagrange (Teorema 31.15) implica que ord(a) | |S], e portanto |S| = O (mod 1), onde t = ord(a). 
Então, a«sp= = e. 


Exercícios 


31.3-1 Desenhe as tabelas de operação de grupo para os grupos (4, +4) e (*S, -;) . Mostre que esses grupos são 
isomorfos, exibindo uma correspondência de um para um q entre seus elementos, tal que a + b = c (mod 4) se 
e somente se a(a) - a(b) = a(c) (mod 5). 


31.3-2 Organize uma lista com todos os subgrupos de º e de *13. 
31.3-3 Proveo Teorema 31.14. 


31.3-4 Mostre que, se p é primo e e é um inteiro positivo, então 


dp) = pp — 1). 


31.3-5 Mostre que, para qualquer inteiro n > 1 e para qualquer a E *, a função /,:* | — * definida por f(x) = ax 
mod n é uma permutação de *.. 


31.4 Sorução DE EQUAÇÕES LINEARES MODULARES 


Agora, consideramos o problema de encontrar soluções para a equação 
ax = b (mod n), (31.25) 


onde a > 0 en > 0. Esse problema tem várias aplicações; por exemplo, nós o usaremos como parte do procedimento 
para determinar chaves no sistema de criptografia de chave pública RSA, na Seção 31.7. Supomos que a, b en são 
dados e desejamos determinar todos os valores de x, módulo n, que satisfazem a equação (31.25). A equação pode ter 
zero, uma ou mais de uma solução como essa. 

Seja (a) o subgrupo de , gerado por a. Visto que (a) = ta) :x > 0) = tax mod n :x > 03, a equação (31.25) 
tem uma solução se e somente se b E (a). O teorema de Lagrange (Teorema 31.15) afirma que |(a)| deve ser um 
divisor de n. O teorema a seguir nos dá uma caracterização precisa de (a). 


Teorema 31.20 
Para quaisquer inteiros positivos a e n, se d = mde(a, n), então 
(a) = (d) = 10,d,2d,...,((n/d) — 1)d), (31.26) 


em e, assim, 
Ma)=n/d. 


Prova Começamos mostrando que d & (a). Lembre-se de que Exrenvep-EvucLin(a, n) produz inteiros x' e y' tais que ax' 
+ ny'= d. Assim, ax' = d, de modo que d E (a). Em outras palavras, d é múltiplo de a em ,. 
Visto que d E (a), decorre que todo múltiplo de d pertence a (a) porque qualquer múltiplo de um múltiplo de a é 
ele próprio um múltiplo de a. Então, (a) contém todos os elementos em (0, d, 2d, ..., ((n/d) — Dd). Isto é, (d) E (a). 
Agora mostramos que (a) E (d). Sem E (a), então m = ax mod n para algum inteiro x, e portanto m = ax + ny 
para algum inteiro y. Contudo, d [a e d |n, e assmd | m pela equação (31.4). Portanto, m E (d). 


Combinando esses resultados, temos que (a) = (d). Para ver que [(a)| = n/d , observe que há exatamente n/d múltiplos 
de d entre O en — 1, inclusive. 


Corolário 31.21 


A equação ax = b pode ser resolvida para a incógnita x se e somente se d| b, onde d = mdce(a, n). 


Prova A equação ax = b (mod n) pode ser resolvida se e somente se [b] E (a), que é o mesmo que dizer . 
(b mod n) E (0,d,2d,..., (n/d) — 1)d) 
pelo Teorema 31.20. Se 0<b <n, então b E (a) se e somente se d | b, visto que os membros de (a) são exatamente 


os múltiplos de d. Seb < 0 oub >, então o corolário decorre da observação de que d | b se e somente se d | (b mod 
n), já que a diferença entre b e b mod n é um múltiplo de n, que é, ele próprio, um múltiplo de d. 


Corolário 31.22 

A equação ax = b (mod n) tem d soluções distintas módulo n, onde d = mdc(a, n) ou não tem nenhuma solução. 

Prova Se ax = b (mod n) tem uma solução, então b E (a). Pelo Teorema 31.17, ord(a) = |(a)| e, assim, o Corolário 
31.18 e o Teorema 31.20 implicam que a sequência ai mod n, para i = 0, 1, ... é periódica com período |(a)| = n/d. Se 
b E (a), então b aparece exatamente d vezes na sequência ai mod n, para i=0, 1,...,n — 1, já que o bloco de valores 


(a) de comprimento (n/d) é repetido exatamente d vezes à medida que i cresce de O a n — 1. Os índices x das d 
posições para as quais ax = mod n = b são as soluções da equação ax = b (mod n). 


Teorema 31.23 


Seja d = mdc(a, n) e suponha que d = ax' + ny' para alguns inteiros x' e )' (por exemplo, como calculado por Exrenpep- 
EucLi). Se d | b, então a equação ax = b (mod n) tem como uma de suas soluções o valor x,, onde 


x, =x(b/d) mod n. 
Prova Temos 


ax'(b/d) (mod n) 
d(b/d) (mod n) (porque ax' = d (mod n)) 
b (mod n), 


ax 


e assim x, é uma solução para ax = b (mod n). 


Teorema 31.24 


Suponha que a equação ax = b (mod n) tenha solução (isto é, d | b, onde d = mdc(a, n)), e que x, seja alguma solução 
para essa equação. Então, essa equação tem exatamente d soluções distintas, módulo n, dadas por x, = x, + i(n/d) para 
i=0,1),..,d-1. 


Prova Como n/d>0e0<i(n/id)<nparai=0,1,...,d-—1,os valores x,, x,, ..., x;- ! são todos distintos, módulo n. 
Como x, é uma solução de ax = b (mod n), temos ax, mod n = b (mod n). Assim, para i=0,1,...,d-— 1, temos 


ax,modn = a(x,+in/d) modn 

a(x, + ain/d) mod n 

ax, mod n (porque d | a implica que ain/d é um múltiplo de n) 
b (mod n), 


e, por consequência, ax, = b (mod n), o que faz de x, uma solução também. Pelo Corolário 31.22, a equação a ax = b 
(mod n) tem exatamente d soluções, de modo que x,, x,, ..., x; - ! devem ser todas elas. 


Agora, desenvolvemos a matemática necessária para resolver a equação ax = b (mod n); o algoritmo a seguir 
imprime todas as soluções para essa equação. As entradas a e n são inteiros positivos arbitrários e b é um inteiro 
arbitrário. 


MoDULAR-LINEAR-EQUATION-SOLVER(a, D,1n) 
1 (d,x',y”) = ExTENDED-EUCLID(a, n) 
2ifd|b 

3 x, = X(b/d) mod n 

4 fori=Otod— 1 

5 imprima (x, + i(n/d)) mod n 

6 else imprimir “nenhuma solução” 


Como exemplo da operação desse procedimento, considere a equação 14x = 30 (mod 100) (aqui, a = 14, b = 30 
en = 100). Chamando Exrenvep-EvcLip na linha 1, obtemos (d, x, y) = (2, —7, 1). Como 2 | 30, as linhas 3-5 são 
executadas. A linha 3 calcula x, = (—7)(15) mod 100 = 95. O laço nas linhas 4-5 imprime as duas soluções: 95 e 45. 

O procedimento MopuLar-Lingar-Equarion-SoLvEr funciona da seguinte maneira: a linha 1 calcula d = mdc(a, n) bem 
como dois valores x' e y' tais que d = ax' + ny”, demonstrando que x' é uma solução para a equação ax' = d (mod n). 
Se d não divide b, então a equação ax = b (mod n) não tem nenhuma solução, pelo Corolário 31.21. A linha 2 verifica 
se d | b; se não, a linha 6 informa que não existe nenhuma solução. Caso contrário, a linha 3 calcula uma solução x, para 
ax = b (mod n), de acordo com o Teorema 31.23. Dada uma solução, o Teorema 31.24 informa que somar múltiplos 
de (n/d), módulo n, produz as outras d — 1 soluções. O laço for das linhas 4-5 imprime todas as d soluções, 
começando com x, e espaçadas entre si (n/d), módulo n. 

MopuLAr-LiNEaR-Equarion-SoLver executa Ollg n + mdc(a, n)) operações aritméticas, já que ExrenpeD-EucLip executa 
O(lg n) operações aritméticas, e cada iteração do laço for das linhas 4-5 executa um número constante de operações 
aritméticas. 

Os seguintes corolários do Teorema 31.24 dão especializações de particularmente interessantes. 


Corolário 31.25 
Para qualquer n > 1, se mdc(a, n) = 1, então a equação ax = b (mod n) tem uma solução única, módulo n. 
Se b = 1, um caso comum de interesse considerável, o x que estamos procurando é um inverso multiplicativo 


de a, módulo n. 


Corolário 31.26 


Para qualquer n > 1, se mde(a, n) = 1, então a equação ax = 1 (mod n) tem uma solução única, módulo n. Caso 
contrário, ela não tem nenhuma solução. 


Graças ao Corolário 31.26 podemos usar a notação a, mod n para nos referirmos ao inverso multiplicativo de a, 
módulo n, quando a e n são primos entre si. Se mdc(a, n) = 1, então a única solução para a equação ax = 1 (mod n) é 
o inteiro x retornado por ExrenDeD-EucLip, já que a equação 


mdc(a,n) = 1=ax +ny 


implica ax = 1 (mod n). Assim, podemos calcular a-! mod n eficientemente usando ExrenpED-Evccip. 


Exercícios 
31.4-1 Determine todas as soluções para a equação 35x = 10 (mod 50). 


31.4-2 Prove que a equação ax = ay (mod n) implica x = y (mod n) sempre que mdc(a, n) = 1. Mostre que a 
condição mdc(a, n) = 1 é necessária, fornecendo um contraexemplo com mdc(a, n) > 1. 


31.4-3 Considere a seguinte mudança na linha 3 do procedimento MopuLAR-LiNEAR-Equa- TION-SOLVER: 
3 x,=x'(b/d) mod (n/d) 


Isso funcionará? Explique sua resposta. 


31.4-4 * Seja p primo eflx)=fo +fx +... + fx! (mod p) um polinômio de grau t, com coeficientes f: extraídos de 
p. Dizemos que a , & é umzero de f se fla) = O (mod p). Prove que, se a é um zero de f, então flx) = (x — 
a) g(x) (mod p) para algum polinômio g(x) de grau t — 1. Prove por indução em relação a t que, se p é primo, 
então um polinômio f(x) de grau t pode ter no máximo t zeros distintos módulo p. 


31.5 (O TEOREMA CHINÊS DO RESTO 


Por volta do ano 100, o matemático chinês Sun-Tsu resolveu o problema de determinar os inteiros x que deixam 
restos 2, 3 e 2 quando divididos por 3, 5 e 7, respectivamente. Uma dessas soluções é x = 23; todas as soluções têm a 
forma 23 + 105K para inteiros arbitrários k. O “teorema chinês do resto” dá uma correspondência entre um sistema de 
equações módulo de um conjunto de primos dois a dois (por exemplo, 3, 5 e 7) e uma equação módulo, o produto 
desses primos (por exemplo, 105). 

O teorema chinês do resto tem duas aplicações importantes. Considere o inteiro n fatorado como n =n,n, ny, 
onde os fatores n, são primos entre si aos pares. Em primeiro lugar, o teorema chinês do resto é um “teorema de 
estrutura” descritivo que mostra a estrutura de , como idêntica à do produto cartesiano a linha base do x tem que ser a 
mesma do 1 X 2 X... x nk, com adição e multiplicação componente a componente módulo n, na i-ésima componente. 
Em segundo lugar, essa descrição nos ajuda a projetar algoritmos eficientes, já que trabalhar em cada um dos sistemas 

ni pode ser mais eficiente (em termos de operações com bits) que trabalhar com módulo n. 


Teorema 31.27 (Teorema chinês do resto) 


Sejan=nn,::: n, onde os n, são primos dois a dois. Considere a correspondência 


ao (a,a,..,4,) (31.27) 


eo Mp 


ondea E ,a, E jie 
a, = a mod n, 


para i = 1,2, ..., k. Então, mapear (31.27) é uma correspondência biunívoca (bijeção) entre , e o produto cartesiano || 
x 2 X.. X nk Operações executadas nos elementos de , podem ser executadas de modo equivalente nas k tuplas 
correspondentes se as operações forem executadas independentemente em cada posição coordenada no sistema 
adequado. Isto é, se 


7d MR 


bo (bbb), 


então 
(a +b)modn «((a +b)modn,,...,(a + b) mod n,), (31.28) 
(a — b) mod n « ((a, — b) modn,,.... (a, — b)) mod n,), (31.29) 
(ab) modn | «((ab modn,,...,ab) modn,). (31.30) 


Prova Transformar uma representação na outra é razoavelmente simples. Passar de a para (a,, a,, ..., a,) é bem fácil e 
requer somente k operações “mod”. 

Calcular a pelas entradas (a,, a», ..., a,) é um pouco mais complicado. Começamos definindo m, = n/n, para i=1, 
2, .., k; assim, m, é o produto de todos os n; exceto n;:m,=nn, : n;-In;+! --: mn, Em seguida, definimos 


c=m,(m! modn) (31.91) 


para i= 1,2,..., k. A equação 31.31 é sempre bem definida: visto que m, e n, são primos entre si (pelo Teorema 31.6), 
o Corolário 31.26 garante que m, -! (mod n,) existe. Finalmente, podemos calcular a como uma função de a,, a», ..., a, 
assim: 


a=(ac-+ac,+...+ac,) (mod n). (31.32) 


Agora mostramos que a equação (31.32) garante que a = a, (mod n,) para i = 1,2, ..., k. Observe que, se j * i, então 
m, = 0 (mod n;), o que implica que c, = m, = O (mod n;). Observe também que c, = 1 (mod n;), pela equação (31.31). 
Assim, temos a interessante e útil correspondência 


c, + (0,0,...,0,1,0,...,0), 


um vetor que tem zeros em todos os lugares, exceto na i-ésima coordenada, onde tem um 1; assim, em certo sentido, as 
c;, formam uma “base” para a representação. Então, para cada i, temos 


a =ar (mod n1) 
= am, (m:! modn) (mod n) 
= ú (mod n), 


que é o que queríamos demonstrar: nosso método de calcular a pelos a, produz um resultado a que satisfaz as restrições 
a=a, (mod n;) para i = 1,2,..., k. A correspondência é biunívoca, já que podemos transformar em ambas as direções. 
Finalmente, as equações (31.28)(31.30) decorrem diretamente do Exercício 31.1-7, já que x mod n, = (x mod n) 
mod n, para qualquer x ei=1,2,...,k. 


Os corolários a seguir serão usados mais adiante neste capítulo. 


Corolário 31.28 


Se n,, 1», ..., ny são primos dois a dois en =n,, n,, ..., n, então, para quaisquer inteiros a,, a,, ..., 4, O conjunto de 
equações simultâneas 


x=a, (mod n), 


para i = 1,2, ..., k, tem uma solução única módulo n para a incógnita x. 


Corolário 31.29 


Se n,, 1, ..., Ny São primos dois a dois en =1n,, 1, ..., N então, para todos os inteiros x e a, 
x=a(modn), 

para i = 1,2,..., k se e somente se 

Como exemplo da aplicação do teorema chinês do resto, suponha que temos as duas equações 


a=2(mod 5), 
a=3 (mod 13), 


de modo que a, =2,n,=m,=5,a,=3en,=m, = 13, e desejamos calcular a mod 65, já que n = 65. Como 13-1 = 
2 (mod 5) e 5-1 = 8 (mod 13), temos 


Gol Zad, 
c=9:8=40, 

e 

a=2-26+3-40 (mod 65) 
= 52 + 120 (mod 65) 
= 42 (mod 65). 


A Figura 31.3 apresenta uma ilustração do teorema chinês do resto, módulo 65. 
Assim, podemos trabalhar em módulo n trabalhando diretamente em módulo n ou na representação transformada 
usando cálculos módulo n, separados, como for conveniente. Os cálculos são totalmente equivalentes. 


13 53 28 3 43 18 58 33 8 48 27 63 38 
39 14 54 29 4 44 20 59 34 9 49 28 64 
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Figura 31.3 Ilustração do teorema chinês do resto para n, = 5 e n, = 13. Nesse exemplo, c, = 26 e c, = 40. Na linha i, coluna j é mostrado 
o valor de a, módulo 65, tal que a mod 5 =i e a mod 13 =j. Observe que a linha 0, coluna 0 contém um O. De modo semelhante, a linha 4, 
coluna 12 contém um 64 (equivalente a -1). Visto que c, = 26, descer uma linha aumenta a de 26. De modo semelhante, c, = 40 significa 
que passar para uma coluna à direita aumenta a de 40. Aumentar a de 1 corresponde a descer pela diagonal para a direita, retornar de 
baixo para cima e da direita para a esquerda. 


Exercícios 
31.5-1 Determme todas as soluções para as equações x = 4 (mod 5) ex = 5 (mod 11). 
31.5-2 Determine todos os inteiros x que deixam restos 1, 2, 3 quando divididos por 9, 8, 7, respectivamente. 
31.5-3 Demonstre que, de acordo com as definições do Teorema 31.27, se mde(a, n) = 1, então 
(a! mod n) — ((a7! mod n)), (a)! mod n,),..., (a! mod ny). 


31.5-4 Pelas definições do Teorema 31.27, prove que, para qualquer polinômio f, o número de raízes da equação 
f(x) = 0 (mod n) é igual ao produto do número de raízes de cada uma das equações flx) = 0 (mod nj), flx) = 
O (mod n,), ..., flx) = O (mod n,). 


31.6 Porências DE UM ELEMENTO 


Exatamente como muitas vezes consideramos os múltiplos de dado elemento a, módulo n, consideramos a 
sequência de potências de a, módulo n, onde a E *.: 


REP a (31.33) 
módulo n. Iniciando a indexação de 0, o 0-ésimo valor nessa sequência é a, mod n = 1 e o i-ésimo valor é a, mod 
n. Por exemplo, as potências de 3 módulo 77 são 
i 0 1 2 3 + 5 6 7Á 8 9 10 11 
3' mod 7 1 3 2 6 + 5 | 3 2 6 + o) 


enquanto as potências de 2 módulo 7 são 
i 0 1 2 ; 4 5 6 7 8 9 10 1 
2' mod 7 1 2 + 1 2 + 1 2 + 1 2 + 


Nesta seção, representamos por (a) o subgrupo de *. gerado por a por multiplicação repetida, e representamos 
por ord (a) (a “ordem de a, módulo n”) a ordem de a em +. Por exemplo, (2) = (1, 2, 4) em *7, e ord7(2) = 3. 
Usando a definição da função fi de Euler f(n) como o tamanho de *, (consulte a Seção 31.3), agora traduzimos o 
Corolário 31.19 para a notação de *,, para obter o teorema de Euler e especializá-lo para *., onde p é primo, para 
obter o teorema de Fermat. 


Teorema 31.30 (Teorema de Euler) 
Para qualquer inteiro n > 1, 


a) =1 (mod n) para todo a € Z,. 


Teorema 31.31 (Teorema de Fermat) 


Se p é primo, então 


=, == * 
ar"! =1 para todo a € Z, . 


Prova Pela equação (31.21), fln) = p — 1 se p é primo. 


O teorema de Fermat se aplica a todo elemento em » exceto 0, visto que O & *». Contudo, para todo a E », temos 
ap = a (mod p) se p é primo. 

Se ord (2) = |*, |, então todo elemento em *. é uma potência de g, módulo n, e g é uma raiz primitiva ou um 
gerador de *.. Por exemplo, 3 é uma raiz primitiva, módulo 77, mas 2 não é uma raiz primitiva, módulo 7. Se *.. possui 
uma raiz primitiva, o grupo *, é cíclico. Omitimos a prova do teorema a seguir, que é provado por Niven e Zuckerman 
[265]. 


Teorema 31.32 


Os valores de n > 1 para os quais *, é cíclico são 2, 4, p. e 2p,, para todos os primos p > 2 e todos os inteiros 
positivos e. 


Se g é uma raiz primitiva de *, e a é qualquer elemento de *,, então existe um z tal que g, = a (mod n). Esse z é 
um logaritmo discreto ou um índice de a, módulo n, na base g; denotamos esse valor como ind, , s(a). 


Teorema 31.33 (Teorema do logaritmo discreto) 


Se g é uma raiz primitiva de *,, então a equação g, = g, (mod n) é válida se e somente se a equação x = y (mod f(n)) é 
válida. 


Prova Primeiro, suponha que x = y (mod f(n)). Então, x = y + kf(n) para algum inteiro k. Assim, 


9º = gr+60) (mod n) 
k 
RE | ó(n) 
=, e | (modn) (pelo teorema de Euler) 
=9"1 (mod n) 
=g (mod n) 


Ao contrário, suponha que g, = g, (mod n). Como a sequência de potências de g gera todo elemento de (g) e |<g>| = f 
(n), o Corolário 31.18 implica que a sequência de potências de g é periódica com período f (n). Portanto, se g, = g, 
(mod n), então devemos ter x = y (mod f (n)). 


Agora, voltamos nossa atenção às raízes quadradas de 1, módulo potência prima. O teorema a seguir será útil no 


desenvolvimento de um teste de primalidade do algoritmo na Seção 31.8. 


Teorema 31.34 
Se p é um primo ímpar e e > 1, então a equação 
x? = 1 (mod pº) (31.34) 
tem somente duas soluções, isto é, x = 1 ex =-—1. 


Prova A equação (31.34) é equivalente a 


pº |(x — 1) (x + 1). 


Visto que p > 2, podemos ter p | (x — 1) ou p | (x + 1), mas não ambos. (Caso contrário, pela propriedade (31.3), p 
também dividiria a diferença entre eles, (x + 1) — (x — ) = 2) Sep (x — 1), então mdc (p., x — 1) = 1. e, pelo 


Corolário 31.5, teríamos p, | (x+ 1). Isto é, x =— 1 (mod p,). Simetricamente, se p (x + 1), então mdc (p, x + 1)=1, 
e o Corolário 31.5 implica que p. | (x — 1) = 1, de modo que x = —1 (mod p.). Portanto, x = —1 (mod p.) oux = 1 
(mod p,). 


Um número x é uma raiz quadrada não trivial de 1, módulo n, se satisfaz a equação x, = 1 (mod n), mas x não 
é equivalente a nenhuma das duas raízes quadradas “triviais”. 1 ou —1, módulo n. Por exemplo, 6 é uma raiz quadrada 
não trivial de 1, módulo 35. Usaremos o corolário do Teorema 31.34 apresentado a seguir na prova de correção do 
procedimento de teste de primalidade de Miller-Rabin na Seção 31.8. 


Corolário 31.35 


Se existe uma raiz quadrada não trivial de 1, módulo n, então n é composto. 


Prova Pelo contrapositivo do Teorema 31.34, se existe uma raiz quadrada não trivial de 1, módulo n, então n não pode 
ser um primo ímpar ou uma potência de um primo ímpar. Se x, = 1 (mod 2), então x = 1 (mod 2) e, portanto, todas as 
raízes quadradas de 1, módulo 2, são triviais. Assim, n não pode ser primo. Finalmente, devemos ter n > 1 para que 
exista uma raiz quadrada não trivial de 1. Então, n tem de ser composto. 


Exponenciação com elevação ao quadrado repetida 


Uma operação que ocorre frequentemente em cálculos da teoria dos números é a elevação de um número a uma 
potência módulo outro número, também conhecida como exponenciação modular. Mais precisamente, o que 
queremos é um modo eficiente para calcular a, mod n, onde a e b são inteiros não negativos e n é um inteiro positivo. A 
exponenciação modular é uma operação essencial em muitas rotinas de teste de primalidade e no sistema de criptografia 
de chave pública RSA. O método de elevação ao quadrado repetida resolve esse problema eficientemente utilizando 
a representação binária de b. 

Seja (b,, be - 1,..., b, bo) a representação binária de b (isto é, a representação binária tem k + 1 bits de 
comprimento, b, é o bit mais significativo e b, é o bit menos significativo). O procedimento a seguir calcula a, mod n à 
medida que c é aumentada por duplicações e incrementações de O a b. 


MODULAR-EXPONENTIATION(a, b,1n) 


1 €=0 

2 tie] 

3 seja (b,,b, ,....,b,, by) a representação binária de b 
4 for i = k downto O 

» E =2€ 


6 d=(d-d)modn 
7 àfb==1 


8 c=0e+1 
y d=(d-a)modn 
10 return d 


O uso essencial da elevação ao quadrado na linha 6 de cada iteração explica o nome “elevação ao quadrado 
repetida”. Como exemplo, para a = 7, b = 560 e n = 561, o algoritmo calcula a sequência de valores módulo 561 
mostrada na Figura 31.4; a sequência de expoentes utilizados é mostrada na linha da tabela identificada por c. 

Na verdade, o algoritmo não precisa da variável c, mas ela é incluída para o seguinte invariante de laço de duas 
partes: 

Imediatamente antes de cada iteração do laço for das linhas 4-9, 


Figura 31.4 Resultados de MopuLar-exronentiation quando o procedimento calcula a» (mod n), onde a = 7, b = 560 = (1000110000) e n = 
561. Os valores são mostrados após cada execução do laço for. O resultado final é 1. 


1. O valor de c é o mesmo que o do prefixo (bs, by - 1, ..., b:+ 1) da representação binária de b. 
d = a-mod n. 
Usamos esse invariante de laço da seguinte maneira: 


Inicialização: Inicialmente, i = k, de modo que o prefixo (b,, b, - 1,..., b, + 1) está vazio, o que corresponde a c 
= 0. Além disso, d = 1 = a, mod n. 


Manutenção: Sejam c' e d' os valores de c e d no final de uma iteração do laço for e, portanto, os valores antes 
da próxima iteração. Cada iteração atualiza c'= 2c (seb,= 0) ouc'=2c + 1 (se b, = 1), de modo que c estará 
correta antes da próxima iteração. Se b, = 0, então d' = d, mod n = (a)2 mod n = a,. mod n = mod n = a; mod 
n. Seb ;,= 1, então d'= d,a mod n = (a )2 a mod n = a,. + ! mod n = a mod n. Em qualquer caso, d = a, 
mod n antes da próxima iteração. 


Término: No término, i = —1. Assim, c = b, já que c temo valor do prefixo (b,, b, - 1, ..., bo) da representação 
binária de b. Consequentemente, d = a, mod n = a, mod n. 


Se as entradas a, b e n são números de bits, então o número total de operações aritméticas exigidas é O(), e o 
número total de operações com bits exigidas é O(3). 


Exercícios 


31.6-1 Desenhe uma tabela mostrando a ordem de todos os elementos em 1*1. Escolha a menor raiz primitiva g e 
calcule uma tabela que dê ind!1, s(x) para todo x E 1*%1. 


31.6-2 Dê um algoritmo de exponenciação modular que examme os bits de b da direita para a esquerda, em vez de 
da esquerda para a direita. 


31.6-3 Supondo que você conhece f(n), explique como calcular a, mod n para qualquer a € |* usando o 
procedimento Mopur ar-ExPoNENTIATION. 


31.7 (O sistEMADE CRIPTOGRAFIA DE CHAVE PÚBLICA RSA 


Com um sistema de criptografia de chave pública podemos criptografar mensagens enviadas entre dois 
participantes de uma comunicação, de modo que um intruso que escute as mensagens criptografadas não possa decifrá- 
las. Um sistema de criptografia de chave pública também permite que um dos participantes acrescente uma “assinatura 
digita” impossível de forjar ao final de uma mensagem eletrônica. Tal assinatura é a versão eletrônica de uma assinatura 
manuscrita em um documento em papel e pode ser facilmente verificada por qualquer pessoa, não pode ser forjada por 
ninguém e perde sua validade se qualquer bit da mensagem for alterado. Portanto, permite a autenticação da identidade 
do signatário, bem como do conteúdo da mensagem assinada. É a ferramenta perfeita para assinar eletronicamente 


contratos de negócios, cheques eletrônicos, pedidos de compras eletrônicos e outras comunicações eletrônicas que as 
partes desejem autenticar. 

O sistema de criptografia de chave pública RSA se baseia na espetacular diferença entre a facilidade de encontrar 
números primos grandes e a dificuldade de fatorar o produto de dois números primos grandes. A Seção 31.8 descreve 
um procedimento eficiente para encontrar números primos grandes, e a Seção 31.9 discute o problema de fatorar 
inteiros grandes. 


Sistemas de criptografia de chave pública 


Em um sistema de criptografia de chave pública, cada participante tem uma chave pública e uma chave secreta. 
Cada chave é uma informação. Por exemplo, no sistema de criptografia RSA, cada chave consiste em um par de 
interros. Os participantes “Alice” e “Bob” são tradicionalmente usados em exemplos de criptografia; denotamos suas 
chaves públicas e secretas como P,, S, para Alice e P,, Sp para Bob. 

Cada participante cria suas próprias chaves pública e secreta. Chaves secretas são mantidas em segredo, mas 
chaves públicas podem ser reveladas a qualquer um ou até divulgadas publicamente. Na verdade, muitas vezes, é 
conveniente supor que a chave pública de qualquer pessoa está disponível em um diretório público, de modo que 
qualquer participante possa obter facilmente a chave pública de qualquer outro participante. 

As chaves pública e secreta especificam funções que podem ser aplicadas a qualquer mensagem. Seja D o 
conjunto de mensagens permissíveis. Por exemplo, D poderia ser o conjunto de todas as sequências de bits de 
comprimento finito. Na formulação mais simples e original da criptografia de chave pública, as chaves pública e secreta 
devem especificar funções biunívocas de D para ele próprio. Denotamos a função correspondente à chave pública de 
Alice, P,, por P,() e a função correspondente à sua chave secreta, S,, por S,( ). Portanto, as funções P,() e S,() 
são permutações de D. Supomos que as funções P,( ) e S,( ) podem ser calculadas eficientemente, dada a chave 
correspondente P, ou sS,. 

As chaves pública e secreta para qualquer participante formam um “par compatível”, já que especificam funções 
que são inversas uma da outra. Isto é, 


M=S(P(M), (31.35) 
M=P(S(M) (31.36) 


para qualquer mensagem M E D. Transformar M com as duas chaves P, e S,, sucessivamente, em qualquer ordem, 
produz novamente a mensagem M. 

Em um sistema de criptografia de chave pública, é essencial que ninguém, exceto Alice, possa calcular a função S,( 
) em qualquer período de tempo prático. Tal proposição é crucial para manter a privacidade das mensagens 
criptografadas enviadas a Alice e para saber que as assinaturas digitais de Alice são autênticas. Alice deve manter S, em 
segredo; se ela não o fizer, perderá a exclusividade da chave, e o sistema de criptografia não poderá lhe oferecer 
recursos exclusivos. A pressuposição de que somente Alice pode calcular S,() deve se manter válida mesmo que todos 
conheçam P, e possam calcular eficientemente P,(), a função inversa de S,(). Para projetar um sistema de criptografia 
de chave pública funcional, temos de formular um sistema no qual possamos revelar uma transformação P,( ), sem com 
isso revelar como calcular a transformação inversa S,( ) correspondente. Essa tarefa parece descomunal, mas veremos 
como podemos executá-la. 

Em um sistema de criptografia de chave pública, a codificação funciona como mostra a Figura 31.5. Suponha que 
Bob queira enviar a Alice uma mensagem M criptografada de tal forma que ela pareça algaravia ininteligível para um 
intruso. O cenário para enviar a mensagem é dado a segurr. 

* Bob obtéma chave pública de Alice, Ps(de um diretório público ou diretamente de Alice). 
* Bob calcula o texto cifrado C = P(M) correspondente à mensagem M e envia C a Alice. 


* Quando recebe o texto cifrado C, Alice aplica sua chave secreta Sa para recuperar a mensagem original: SC) = 

Sa(PAM)) = M. 

Como S,( ) e P,( ) são funções inversas, Alice pode calcular M a partir de C. Visto que somente Alice pode 
calcular S,(), ela é a única pessoa que pode calcular M a partir de C. Como Bob criptografa M usando P,(), só Alice 
pode entender a mensagem transmitida. 

Podemos implementar assinaturas digitais com igual facilidade dentro da nossa formulação de um sistema de 
criptografia de chave pública. (Há outros modos de abordar o problema de construir assinaturas digitais, mas não os 
examinaremos aqui.) Suponha agora que Alice queira enviar a Bob uma resposta M' com assinatura digital. A Figura 
31.6 mostra como ocorre a assinatura digital. 

* Alice calcula sua assinatura digital s para a mensagem M' usando sua chave secreta Sa e a equação s = SM”). 


Bob Alice 
canal de comunicação 
encripta decripta 
C=P(M) 
» » 
intruso 
C 


Figura 31.5 Codificação emum sistema de chave pública. Bob codifica a mensagem M usando a chave pública P, de Alice e transmite o 
texto cifrado resultante C=P, (M ) a Alice por um canal de comunicação. Umintruso que capturar o texto cifrado transmitido não obterá 
nenhuma informação sobre M. Alice recebe C e o decifra usando sua chave secreta para obter a mensagemoriginal M=S, (C). 


* Alice envia o par mensagem/assinatura (M, s) à Bob. 

* Ao receber (M, s), Bob pode confirmar que ela foi enviada por Alice utilizando a chave pública de Alice para 
verificar a equação M' = P«(s). (Presumivelmente, M' contém o nome de Alice e, assim, Bob sabe qual chave 
pública deve usar.) Se a equação é válida, Bob conclui que a mensagem M' foi realmente assinada por Alice. Se a 
equação não é válida, Bob conclui que a mensagem M' ou a assinatura digital s foi danificada por erros de 
transmissão ou que o par (M”, s) é uma tentativa de falsificação. 

Como proporciona autenticação da identidade do signatário, bem como autenticação do conteúdo da mensagem 
assinada, uma assinatura digital é análoga a uma assinatura manuscrita no final de um documento escrito. 

Uma assinatura digital tem de ser verificável por quem quer que tenha acesso à chave pública do signatário. Uma 
mensagem assinada pode ser verificada por uma parte e depois repassada a outras partes que também podem verificar 
a assinatura. Por exemplo, a mensagem poderia ser um cheque eletrônico de Alice para Bob. Depois de verificar a 
assinatura de Alice no cheque, Bob pode entregá-lo a seu banco, que então também pode verificar a assinatura e 
efetuar a transferência de fundos adequada. 

Uma mensagem assinada não está necessariamente criptografada; a mensagem pode estar “às claras” e não 
protegida contra revelação. Compondo os protocolos já citados para codificação e para assinaturas, podemos criar 
mensagens assinadas e criptografadas. Primeiro, o signatário anexa sua assinatura digital à mensagem e depois 
criptografa o par mensagem/assinatura resultante com a chave pública do destinatário pretendido. O destinatário 
decodifica a mensagem recebida com sua chave secreta para obter a mensagem original e também sua assinatura digital. 
Então pode verificar a assinatura usando a chave pública do signatário. O processo combinado correspondente quando 
são utilizados sistemas em papel é assinar o documento em papel e depois lacrá-lo dentro de um envelope de papel que 
será aberto apenas pelo destinatário pretendido. 


Alice Bob 


sign verify 
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Figura 31.6 Assinaturas digitais em um sistema de chave pública. Alice assina a mensagem M' anexando a ela sua assinatura digital s = 


Sa (M”. Ela transmite o par mensagenvassinatura (M”, s) a Bob, que a verifica conferindo a equação M' = Pu (s). Se a equação é válida, 
ele aceita (M”, s) como uma mensagem assinada por Alice. 


O sistema de criptografia RSA 


No sistema de criptografia de chave pública RSA, um participante cria suas chaves pública e secreta com o 
seguinte procedimento: 
1. Selecione aleatoriamente dois números primos grandes p e q, tais que p q. Os primos p e q podem ter, digamos, 
512 bits cada um. 
Calcule n = pq. 
3. Selecione um inteiro fmpar pequeno e tal que e seja primo com f(n), que, pela equação (31.20), é igual a (p - D(g 
- 1). 
4. Calcule d como o inverso multiplicativo de e, módulo f(n). (O Corolário 31.26 garante que d existe e é definido 
unicamente. Podemos usar a técnica da Seção 31.4 para calcular d, dados e e f(n).) 
Divulgue o par P = (e, n) como a chave pública RSA do participante. 
6. Mantenha o par S = (d, n) em segredo como a chave secreta RSA do participante. 


o 


n 


Por esse esquema, o domínio D é o conjunto ,. Para transformar uma mensagem M associada a uma chave pública 
P = (e, n) calcule 


P(M) = Mº (mod n). (31.37) 
Para transformar um texto cifrado C associado a uma chave secreta S = (d, n) , calcule 
S(C) = C! mod n. (31.38) 


Essas equações se aplicam à codificação, bem como a assinaturas. Para criar uma assinatura, o signatário aplica sua 
chave secreta à mensagem a ser assinada, em vez de a um texto cifrado. Para verificar uma assinatura, a chave pública 
do signatário é aplicada a ela, em vez de ser aplicada a uma mensagem a ser criptografada. 

Podemos implementar as operações de chave pública e chave secreta usando o procedimento Mopurar- 
Exronentiation descrito na Seção 31.6. Para analisar o tempo de execução dessas operações, suponha que a chave 
pública (e, n) e a chave secreta (d, n) satisfaçam lg e = O(1), lg d< elgn <. Então, aplicar uma chave pública requer 
O(1) multiplicações modulares e usa O(2) operações com bits. Aplicar uma chave secreta requer O() multiplicações 
modulares, usando O(3) operações com bits. 


Teorema 31.36 (Correção do RSA) 


As equações RSA (31.37) e (31.38) definem transformações inversas de | que satisfazem as equações (31.35) e 
(31.36). 


Prova Pelas equações (31.37) e (31.38) temos que, para qualquer M & , 
P(S(M)) = S(P(M)) = Mº* (mod n) . 
Visto que e e d são inversos multiplicativos módulo f(n) = (p — Ig — 1), 
ed=1+kp-— Ig — 1) 


para algum inteiro k. Mas, então, se M O (mod p), temos 


Mº = MM (mod p) 
=M(M mod p)') "” (modp) - (pelo Teorema 31.31) 
= MD (mod p) 
=M (mod p) 
Além disso, Med = M (mod p) se M = 0 (mod p). Assim, 
Med = M (mod p) 
para todo M. De modo semelhante, 
Med = M (mod q) 


para todo M. Portanto, pelo Corolário 31.29 do teorema chinês do resto, 
Med = M (mod n) 
para todo M. 


A segurança do sistema de criptografia RSA se baseia em grande parte na dificuldade de fatorar inteiros grandes. 
Se um adversário pode fatorar o módulo n em uma chave pública, então pode deduzir a chave secreta a partir da chave 
pública usando o conhecimento dos fatores p e q do mesmo modo que o criador da chave pública os usou. Portanto, se 
for fácil fatorar inteiros grandes, então é fácil quebrar o sistema de criptografia RSA. A afirmação inversa, isto é, se for 
dificil fatorar inteiros grandes é difícil quebrar o RSA, não foi provada. Todavia, depois de duas décadas de pesquisas, 
não foi encontrado nenhum método mais fácil para quebrar o sistema de criptografia de chave pública RSA do que 
fatorar o módulo n. E, como veremos na Seção 31.9, fatorar inteiros grandes é surpreendentemente dificil. 
Selecionando aleatoriamente e multiplicando dois primos de 1024 bits, podemos criar uma chave pública que não 
poderá ser “quebrada” em nenhum período de tempo viável com a tecnologia atual Na ausência de inovação 
fundamental no projeto de algoritmos da teoria dos números, e quando implementado com cuidado de acordo com 
padrões recomendados, o sistema de criptografia RSA pode garantir alto grau de segurança em aplicações. 

Contudo, para conseguir segurança com o sistema de criptografia RSA, devemos trabalhar com inteiros muito 
longos — centenas de bits de comprimento ou até mais, para resistir a possíveis avanços na arte da fatoração. À época 
da redação deste livro (2009), os módulos RSA encontravam-se comumente na faixa de 768 a 2048 bits. Para criar 
módulos desses tamanhos, temos de determinar primos grandes eficientemente. A Seção 31.8 aborda esse problema. 

Por questão de eficiência, muitas vezes, o RSA é usado de um modo “híbrido” ou de “gerenciamento de chaves”, 
com sistemas de criptografia rápidos de chaves não públicas. Com um sistema desse tipo, as chaves de codificação e 
decodificação são idênticas. Se Alice desejar enviar a Bob uma longa mensagem secreta M, ela seleciona uma chave 
aleatória K para o sistema de criptografia rápido de chave não pública e criptografa M usando K, obtendo o texto 
cifrado C. Nesse caso, C é tão longo quanto M, mas K é bem curto. Em seguida, ela codifica K usando a chave pública 
RSA de Bob. Visto que K é curta, calcular P,(K) é rápido (muito mais rápido que calcular P,(M)). Então, ela transmite 
(C, Ps(K)) a Bob, que decodífica Ps(K) para obter K e depois usa K para decodificar C, obtendo M. 

Podemos usar uma abordagem híbrida semelhante para criar assinaturas digitais eficientemente. Essa abordagem 
combina RSA com uma função hash resistente a colisões h uma função fácil de calcular, mas para a qual é 
inviável, em termos computacionais, encontrar duas mensagens M e M” tais que h(M) = h(M”. O valor h(M) é uma 
“impressão digita” curta (digamos, de 256 bits) da mensagem M. Se Alice deseja assinar uma mensagem M, em 


primeiro lugar aplicará A a M para obter a impressão digital h(M) que, então, codificará com sua chave secreta. Ela 
envia (M, S,(h(M))) a Bob como sua versão assinada de M. Bob pode confirmar a assinatura calculando A(M) e 
verificando que P, aplicada a S,(A(M)) como foi recebida é igual a h(M). Como ninguém poder criar duas mensagens 
com a mesma impressão digital, é impossível, em termos computacionais, alterar uma mensagem assinada e ainda assim 
preservar a validade da assinatura. 

Finalmente, observamos que o uso de certificados torna muito mais fácil a distribuição de chaves públicas. Por 
exemplo, suponha que existe uma “autoridade confiável” T cuja chave pública é conhecida por todos. Alice pode obter 
de T uma mensagem assinada (seu certificado) que declara que “a chave pública de Alice é P,”. Esse certificado é 
“autoautenticado”, já que todos conhecem P... Alice pode incluir seu certificado em suas mensagens assinadas, de 
modo que sua chave pública fique imediatamente disponível para o destinatário, que assim pode verificar a assinatura da 
remetente. Visto que a chave pública de Alice foi assinada por T, o destinatário sabe que a chave de Alice é realmente 
de Alice. 


Exercícios 


31.7-1 Considere um conjunto de chaves RSA comp = 11,g =29,n=319 ee =3. Que valor de d deve ser usado 
na chave secreta? Qual é a codificação da mensagem M = 100? 


31.7-2 Prove que, se o expoente público e de Alice é 3 e um adversário obtém o expoente secreto d de Alice, onde 
0O<d<fn), então o adversário pode fatorar o módulo n de Alice em tempo polinomial em relação ao 
número de bits emn. (Se bem que não pedimos que você o prove, seria interessante saber que esse resultado 
continua verdadeiro mesmo que a condição e = 3 seja eliminada.) Consulte Miller [255].) 


31.7-3 XX Prove que o RSA é multiplicativo, no sentido de que 


P(M)P(M) =P(MM,) (mod n). 


A cal 


Use esse fato para provar que, se um adversário tivesse um procedimento que conseguisse decifrar 
eficientemente 1% das mensagens em , criptografadas com P,, ele poderia empregar um algoritmo 
probabilístico para decifrar todas as mensagens criptografadas com P, com alta probabilidade. 


31.8 + TEsTE DE PRIMALIDADE 


Nesta seção, consideraremos o problema de encontrar primos grandes. Começamos com uma discussão da 
densidade de primos, em seguida, examinamos uma abordagem plausível (embora incompleta) para testar primalidade e 
depois apresentamos um teste de primalidade aleatorizado efetivo criado por Miller e Rabin. 


Densidade de números primos 


Para muitas aplicações, como a criptografia, precisamos encontrar primos grandes “aleatórios”. Felizmente, primos 
grandes não são muito raros, de modo que é viável testar inteiros aleatórios do tamanho adequado até encontrar um 
primo. A função distribuição de primos (n) especifica o número de primos menores ou iguais a n. Por exemplo, (10) 
= 4, já que existem quatro números primos menores ou iguais a 10, isto é, 2, 3,5 e 7. O teorema dos números primos 
nos dá uma aproximação útil para (n1). 


Teorema 31.37 (Teorema dos números primos) 


am T() 
n=500 7 / In n 


A aproximação n/ln n produz estimativas razoavelmente precisas de (n), mesmo para n pequeno. Por exemplo, ela 
erra por menos de 6% em n = 109, onde (n) = 50.847.534 e n/nn 48.254.942. (Para um especialista em teoria dos 
números, 109 é um número pequeno.) 

Podemos ver o processo de selecionar aleatoriamente um inteiro n e determinar se ele é primo como uma tentativa 
de Bernouli (veja Seção C.4). Pelo teorema dos múmeros primos, a probabilidade de sucesso — isto é, a 
probabilidade de n ser primo — é aproximadamente 1/ ln n. A distribuição geométrica nos diz quantas tentativas 
precisamos para obter um sucesso e, pela equação (C€.32), o número esperado de tentativas é aproximadamente hn n. 
Assim, esperaríamos examinar aproximadamente In n inteiros escolhidos aleatoriamente próximos de n para encontrar 
um primo com o mesmo comprimento de n. Por exemplo, esperamos que encontrar um primo de 1.024 bits exigiria 
testar a primalidade de aproximadamente In 21024 = 710 números de 1.024 bits escolhidos aleatoriamente (claro que 
podemos reduzir esse número à metade escolhendo somente mteiros ímpares). 

No restante desta seção, consideraremos o problema de determinar se um inteiro fmpar grande n é ou não primo. 
Por conveniência de notação, supomos que a fatoração de n em primos é 


=. 


n= il o po (31.39) 


onde 7 > 1, p,, Pp» -.., P, São Os fatores primos de n, e e,, e2, ..., e, são inteiros positivos. O inteiro n é primo se e 
somente ser=lce,=1. 

Uma abordagem simples para o problema de testar a primalidade é a divisão experimental. Tentamos dividir n 
por cada inteiro 2, 3, ... Nn (novamente, podemos ignorar inteiros pares maiores que 2). É fácil ver que n é primo se e 
somente se nenhum dos divisores experimentais divide n. Considerando que cada divisão experimental demora um 
tempo constante, o tempo de execução do pior caso é O(Nn), que é exponencial em relação ao comprimento de n. 
(Lembre-se de que, se n for codificado em binário usando bits, então = le (n + 1), e portanto Yn = 0(2/2).) Assim, a 
divisão experimental funciona bem somente se n é muito pequeno ou se por acaso ele tem um fator primo pequeno. 
Quando funciona, a divisão experimental tem a vantagem de não somente determinar se n é primo ou composto, mas 
também de determinar um dos fatores primos de n, se n for composto. 

Nesta seção, estamos interessados apenas em determinar se um dado número n é primo; se n for composto, não 
nos preocuparemos em determinar seus fatores primos. Como veremos na Seção 31.9, calcular os fatores primos de 
um número é dispendioso em termos computacionais. Talvez seja surpreendente que seja muito mais fácil saber se um 
dado número é primo ou não que determinar os fatores primos do número se ele não for primo. 


Teste de pseudoprimalidade 


Agora, consideramos um método para testar primalidade que “quase funciona” e que, na verdade, é bom o 
bastante para muitas aplicações práticas. Mais adiante apresentaremos um refinamento desse método que elimina o 
pequeno defeito. Representamos por +, os elementos não nulos de , : 


Zt=(1,2,..,n-1). 


ca E a ni 
Se n é primo, então +, =*.. 
Dizemos que n é um pseudoprimo de base a se n é composto e 


a"-1=1 (mod n). (31.40) 


O teorema de Fermat (Teorema 31.31) implica que, se n é primo, então n satisfaz a equação (31.40) para todo a 
em+.. Assim, se pudermos encontrar qualquer a €& +, tal que n não satisfaz a equação (31.40), então n é certamente 
composto. É surpreendente que a recíproca quase seja válida, de modo que esse critério forma um teste quase perfeito 
de primalidade. Testamos para verificar se n satisfaz a equação (31.40) para a = 2. Se não, declaramos que n é 
composto retornando Comrosrrr. Caso contrário, retornamos Prime, adivinhando que n é primo (quando, na verdade, 
tudo o que sabemos é que n é primo ou é um pseudoprimo de base 2). 

O procedimento a seguir pretende verificar a primalidade de n desse modo. Utiliza o procedimento Mopurar- 
Exronentiamion da Seção 31.6. A entrada n supõe que n seja um inteiro ímpar maior que 2. 


PsEUDOPRIME(n) 

1 if MoDULAR-ExPONENTIATION(2,n — 1,n) £1 (mod n) 
2 return COMPOSITE /! definitivamente 
3 else retum PRIME /| esperamos! 


Esse procedimento pode cometer erros, mas somente de um tipo. Isto é, se o procedimento afirmar que n é 
composto, então está sempre correto. Porém, se afirmar que n é primo, comete um erro somente se n é um 
pseudoprimo base 2. 

Qual é a frequência de erro desse procedimento? Surpreendentemente rara. Há somente 22 valores de n menores 
que 10.000 para os quais ele erra; os quatro primeiros desses valores são 341, 561, 645 e 1105. Não provaremos, 
mas a probabilidade de esse programa cometer um erro em um número de | bits escolhido aleatoriamente tende a zero 
quando | — oo. Utilizando estimativas mais precisas criadas por Pomerance [279] do número de pseudoprimos de 
base 2 de um dado tamanho, podemos avaliar que a probabilidade de um número de 512 bits escolhido aleatoriamente 
e considerado primo pelo procedimento dado ser um pseudoprimo de base 2 é menor do que uma vez em 1020 e a 
probabilidade de um número de 1.024 bits escolhido aleatoriamente e considerado primo ser um pseudoprimo de base 
2 é menor que um em 1041. Portanto, se estiver simplesmente tentando encontrar um número primo grande para alguma 
aplicação, para todos os propósitos práticos você quase nunca estará errado se escolher números grandes 
aleatoriamente até que, para um deles, Psguporrime retorne Prime. Porém, quando os números cuja primalidade está 
sendo testada não são escolhidos aleatoriamente, precisamos de uma abordagem melhor para testar a primalidade. 
Como veremos, um pouco mais de esperteza e alguma aleatoriedade produzirão uma rotina de teste de primalidade que 
funciona bem para todas as entradas. 

Infelizmente, não podemos eliminar completamente todos os erros simplesmente verificando a equação (31.40) 
para um segundo número-base, digamos a = 3, porque existem inteiros compostos n, conhecidos como números de 
Carmichael, que satisfazem a equação (31.40) para todo a E *.. (Observamos que a equação (31.40) falha quando 
mdc (a, n) > 1 — isto é, quando a E * —, mas esperar demonstrar que n é composto determinando tal a pode ser 
dificil se n tiver somente fatores primos grandes.) Os três primeiros números de Carmichael são 561, 1105 e 1729. 
Números de Carmichael são extremamente raros; há, por exemplo, apenas 255 deles menores que 100.000.000. O 
Exercício 31.8-2 ajuda a explicar por que eles são tão raros. 

Em seguida, mostramos como melhorar nosso teste de primalidade de modo que ele não seja enganado por 
números de Carmichael. 


Teste aleatório de primalidade de Miller-Rabin 


O teste de primalidade de Miller- Rabin supera os problemas do teste simples Psguporrime com duas modificações: 
* Experimenta diversos valores-base a escolhidos aleatoriamente, em vez de apenas um valor-base. 
* Enquanto calcula cada exponenciação modular, procura uma raiz quadrada não trivial de 1, módulo n, durante o 
teste final das elevações ao quadrado. Se encontrar alguma, para e retorna Comrosrre. O Corolário 31.35 na Seção 
31.6 justifica a detecção de compostos feita dessa maneira. 


O pseudocódigo para o teste de primalidade de Miller-Rabin é dado a seguir. A entrada n > 2 é o número ímpar 
cuja primalidade será testada, e s é o número de valores-base escolhidos aleatoriamente de + , que serão 
experimentados. O código utiliza o gerador de número aleatórios Ranpom descrito na página 117: Ranpom(l, n — 1) 
retorna um inteiro a escolhido aleatoriamente que satisfaz | <a <n — 1. O código emprega um procedimento auxiliar 
Wrrness tal que Wrrness(a, n) é Trur se € somente se a é uma “testemunha” de que n é realmente composto isto é, se é 
possível usar a para provar (de um modo que veremos em breve) que n é composto. O teste Wrrness(a, n) é uma 
extensão, porém mais eficiente, do teste 


q" 11 (mod n) 


que formou a base (usando a = 2) para Pseuporrime. Primeiro, apresentamos e justificamos a construção de SC, e 
depois mostramos como o utilizamos no teste de primalidade de Miller-Rabin. Seja n — 1 = 2, onde t > 1 eu é ímpar; 
isto é, a representação binária de n — 1 é a representação binária do inteiro ímpar u seguido por exatamente 1 zeros. 
Portanto, a, — ! =(a,)2', de modo que podemos calcular a, - ! mod n calculando primeiro a, mod n e depois elevando o 
resultado ao quadrado t vezes sucessivamente. 


WirTNESs(a;n) 
1 sejamteutaisquet>1,uéímparen -1=2'u 
2 x, = MODULAR-ExPONENTIATION(A, ,1n) 


3 fori=ltot 

4 x, =x? modn 

5 fx==lex ,tlex, ,én-1 
6 return TRUE 

7 fx, +1 

8 return TRUE 


9 return FALSE 


Esse pseudocódigo para Wrrwess calcula a, - 1 mod n calculando primeiro o valor x = a, mod n na linha 2 e depois 
elevando o resultado ao quadrado t vezes em sequência no laço for das linhas 3-6. Por indução em relação a i, a 
sequência x,, X,, ..., X, de valores calculados satisfaz a equação x: = a,iu (mod n) para i = 0, 1,..., t, de modo que, em 
particular, x, = a, - ! (mod n). Contudo, depois que a linha 4 executa uma etapa de elevação ao quadrado, o laço pode 
terminar prematuramente se as linhas 5-6 perceberem que uma raiz quadrada não trivial de 1 foi encontrada. (Mais 
adiante explicaremos esse teste.) Se isso ocorrer, o algoritmo para e devolve Trur. As linhas 7-8 retornam True se O 
valor calculado para x, = a, - ! (mod n) não é igual a 1, exatamente como o procedimento Pseuvorrime devolve 
Composrre nesse caso. A linha 9 devolve Fase se não tivermos devolvido Truz na linha 6 ou 8. 

Agora, demonstramos que, se Wrress(a, n) devolve Trur, podemos construir uma prova de que n é composto 
usando a como testemunha. 

Se Wrrness devolve Truz da linha 8, então descobriu que x, = a, - 1! mod n £ 1. Contudo, se n é primo, temos, pelo 
teorema de Fermat (Teorema 31.31), que a, - 1 = 1 (mod n) para todo a E +, Portanto, n não pode ser primo, e a 
equação a, - ! mod n f 1 prova esse fato. 

Se Wrrwess retorna True da linha 6, então descobriu que x, - 1! é uma raiz quadrada não trivial de 1, módulo n, visto 
que temos que x, - 1 + 1 (mod n) apesar de x, = x,i- 1! = 1 (mod n). O Corolário 31.35 afirma que somente se n é 
composto pode existir uma raiz quadrada não trivial de 1 módulo n, de modo que demonstrar que x, - 1 é uma raiz 
quadrada não trivial de 1 módulo n prova que n é composto. 

Isso conclui nossa prova da correção de Wrrwess. Se verificarmos que a chamada Wrrwess(a, n) devolve True, então 
n certamente é composto, e a testemunha a, aliada a devolução de Trur pelo procedimento (ele retornou da linha 6 ou 
da linha 8?) prova que n é composto. 


Nesse ponto, apresentamos uma descrição alternativa resumida do comportamento de Wrrwess em função da 
sequência X = (Xo, X,, ..., X,), que mais tarde verificaremos ser útil quando analisarmos a eficiência do teste de 
primalidade de Miller-Rabim. Observe que, se x, = 1 para algum O < i < t, Wrrwess poderia não calcular o restante da 
sequência. Porém, se o fizesse, cada valor x, + 1, x, +2, ..., x, seria 1, e supomos que essas posições na sequência X 
são todas iguais a 1. Temos quatro casos: 

1. X=(..d), onded 1:a sequência X não termina em 1. Devolva True na linha 8; a é uma testemunha de que n é 
composto (pelo Teorema de Fermat). 


2. X=(1,1,..., 1): a sequência X é toda formada por 1. Devolva Farse; a não é uma testemunha de que n é 
composto. 

3. X=(..,-1,1,..., 1):a sequência X termina em 1, e o último valor não 1 é iguala -1. Devolva Fase; a não é uma 
testemunha de que n é composto. 

4. X=(..d,1,..., 1),onded +1:a sequência X termina em 1, mas o último valor não 1 não é —1. Devolva Trur na 


linha 6; a é uma testemunha de que n é composto, já que d é uma raiz quadrada não trivial de 1. 
Agora, examinamos o teste de primalidade de Miller-Rabin com base no uso de Wrrwess. Novamente, supomos 
que n seja um inteiro ímpar maior que 2. 


MILLER-RABIN(N, S) 

1 forj=ltos 

2 a = RANDOM(1,n — 1) 

3 if WITNESS(a,n) 

4 return COMPOSITE / definitivamente 
5 return PRIME /| quase certamente 


O procedimento Miter-Rasin é uma busca probabilística de uma prova de que n é composto. O laço principal (que 
começa na linha 1) escolhe até s valores aleatórios de a de + (Inha 2). Se um dos valores de a escolhidos for uma 
testemunha de que n é composto, então MiLer-RaBix devolve Composrre na linha 4. Tal resultado é sempre correto, pela 
correção de Wrrness. Se MiLLer-RaBin não encontrar nenhuma testemunha em s tentativas, entenderá que isso ocorreu 
porque não existe nenhuma testemunha e, portanto, deduz que n é primo. Veremos que esse resultado é provavelmente 
correto se s for suficientemente grande, mas que ainda há uma minúscula chance de o procedimento ter sido infeliz em 
sua escolha dos valores de a e que as testemunhas realmente existem, ainda que nenhuma tenha sido encontrada. 

Para ilustrar a operação de MiLLer-RaBin, seja n o número de Carmichael 561, de modo que n — 1 = 560 = 24 - 
35,t=4 eu = 35. Se o procedimento escolher a = 7 como base, a Figura 31.4 na Seção 31.6 mostra que Wrrwess 
calcula x, = ass = 241 (mod 561) e, portanto, calcula a sequência X = (241, 298, 166, 67, 1). Assim, Wrrness descobre 
uma raiz quadrada não trivial de 1 na última etapa de elevação ao quadrado, já que a,«, = 67 (mod n) e ass = 1 (mod 
n). Então, a = 7 é uma testemunha de que n é composto, Wrrness(7, n) retorna True E MiLLer-RABIN retorna Composrre. 

Se n é um número de bits, Miter-Rasin requer O(s) operações aritméticas e O(s3) operações com bits, já que 
assintoticamente não requer mais trabalho que s exponenciações modulares. 


Taxa de erro do teste de primalidade de Miller-Rabin 


Se Micter-Rasin devolve Prime, há uma chance muito exígua de o procedimento ter cometido um erro. Porém, 
diferentemente de Pseuporrime, a chance de erro não depende de n; não há nenhuma entrada ruim para esse 
procedimento. Mais exatamente, ela depende do tamanho de s e da “sorte no jogo” na escolha dos valores-base a. 
Além disso, visto que cada teste é mais rigoroso que uma simples verificação da equação (31.40), podemos esperar, 
em princípios gerais, que a taxa de erro seja pequena para inteiros n escolhidos aleatoriamente. O teorema a seguir 
apresenta um argumento mais preciso. 


Teorema 31.38 


Se n é um número composto ímpar, o número de testemunhas de que n é composto é pelo menos (n — 1)/2. 


Prova A prova mostra que o número de não testemunhas é no máximo (n — 1)/2, o que implica o teorema. 

Começamos afirmando que qualquer não testemunha deve ser um membro de +. Por quê? Considere qualquer não 
testemunha a. Ela deve satisfazer a, - 1 = 1 (mod n) ou, o que é equivalente, a - a, - 2 = 1 (mod n). Portanto, a 
equação ax = 1 (mod n), tem uma solução, a saber, a 2. Pelo Corolário 31.21, mdc(a, n) | 1, o que, por sua vez, 
implica que mdc(a, n) = 1. Portanto, a é um membro de +, todas as não testemunhas pertencem a +. 

Para concluir a prova, mostramos que não apenas todas as não testemunhas estão contidas em *,, mas todas elas 
estão contidas em um subgrupo próprio B de +. (lembre-se de que dizemos que B é um subgrupo próprio de *, quando 
B é um subgrupo de *, , mas B não é igual a *,). Então, pelo Corolário 31.16, temos |B| < | *, |/2. Visto que +, <n-—1, 
obtemos |B| < (n — 1)/2. Portanto, o número de não testemunhas é no máximo (n — 1)/2 e, assim, o número de 
testemunhas deve ser, no mínimo, (n — 1)/2. 

Agora, mostramos como encontrar um subgrupo próprio B de *,, que contém todas as não testemunhas. 
Dividiremos a prova em dois casos. 

Caso 1: Existe un x E +, tal que 


x"-1& 1 (mod n). 


Em outras palavras, n não é um número de Carmichael. Como observamos antes, os números de Carmichael são 
extremamente raros e, por isso, o Caso 1 é o caso principal que surge “na prática” (por exemplo, quando n foi 
escolhido aleatoriamente e sua primalidade está sendo testada). 

Seja B=(BE+*:b -1=1(modãn). Claramente, B é não vazio, já que 1 E B. Visto que B é fechado para 
multiplicação módulo n, temos que B é um subgrupo de *,. pelo Teorema 31.14. Observe que toda não testemunha 
pertence a B, já que uma não testemunha a satisfaz a, - 1 = 1 (mod n). Como x E * — B, temos que B é um subgrupo 
próprio de *,. 

Caso 2: Para todo x E +, 


x'-!=1 (mod n) (31.41) 


Em outras palavras, n é um número de Carmichael. Esse caso é extremamente raro na prática. Contudo, o teste de 
Miler-Rabin (diferentemente do teste de pseudoprimalidade) pode determinar eficientemente que números de 
Carmichael são compostos, como mostramos agora. 

Nesse caso, n não pode ser uma potência de primo. Para ver por que, vamos supor, por contradição, que n = p, 
onde p é um primo e e > 1. Deduzimos uma contradição da seguinte maneira: visto que supomos que n é ímpar, p 
também deve ser ímpar. O Teorema 31.32 implica que +» = é um grupo cíclico: contém um gerador g tal que ord (g) = | 
«== fn)=p(1-lp)=(p-1)p,- 1. Pela equação (31.41), temos g - 1 = 1 (mod n). Então, o teorema do 
logaritmo discreto (Teorema 31.33, tomando y = 0) implica que n — 1 = O (mod f(n)) ou 


(p— Dp Ip. 


Isso é uma contradição para e > 1, já que (p — 1)p, - ! é divisível pelo primo p, mas p, — 1 não é. Assim, n não é 
uma potência de primo. 


Visto que o número composto ímpar n não é uma potência de primo, decompomos esse 
número em um produto n,n,, onden,en,são números ímpares maiores que 1 e primos entre si. 
(Pode haver várias maneiras de decompor n, e não importa qual delas escolhemos. Por exem- 
plo, se n=p;p;---p' então podemos escolher n =p'andn, ep;p;-p'-) 

Lembre-se de que definimos t e u de modo que n — 1 = 2'u, onde t > 1 e u é ímpar, e que, 
para uma entrada a, o procedimento WiTNESs calcula a sequência 


X Ed (a”, ar, qu, sis a?) 


(todos os cálculos são executados em módulo n). 
Vamos denominar um par de inteiros (v, |) aceitável sev ce Z: ,je l0,1,....te 


viu = —1 (mod n). 


Pares aceitáveis certamente existem, já que u é ímpar; podemos escolher v =n — 1ej=0,de 
modo que (n — 1,0) é um par aceitável. Agora, escolha o maior j possível tal que exista um par 
aceitável (v, j) e fixe v de modo que (v, j) seja um par aceitável. Seja 


B=(xeZ |: 2 =+1 (mod n1)). 


Como B é fechado para multiplicação módulo n, ele é um subgrupo de Z;. Portanto, pelo Teore- 
ma 31.15, |B| divide | Z; |. Toda não testemunha deve ser um membro de B, já que a sequência 
X produzida por uma não testemunha deve ser toda 1s ou, então, conter um valor —1 não além 
da j-ésima posição, pela maximalidade de j. (Se (a, j”) é aceitável, onde a é uma não testemunha, 
devemos ter |" < j, pelo modo como escolhemos j.) 

Agora, usamos a existência de v para demonstrar que existe um w € Z: — Be, por consequ- 
ência, que B é um subgrupo próprio de Z;. Como v?“ = — 1 (mod n), temos »?! = — 1 (modn,) 
pelo Corolário 31.29 do teorema chinês do resto. Pelo Corolário 31.28, existe um ww que satisfaz 
simultaneamente as equações 


w = v(modn), 
w = 1(modn,). 
Então, 

wu = —1 (mod sa 
wi! = 1 (mod Ho)» 


Pelo Corolário 31.29, w?! + 1 (mod n) implica wu e 1 (mod n),e ww” “& —1 (mod n,) impli- 
ca w' & —1 (mod n). Consequentemente, concluímos que Wa 41 (mod n),e portanto w £ B. 

Resta mostrar que w € Z*,o que fazemos trabalhando primeiro separadamente em módulo 
n, e em módulo n,. Trabalhando em módulo n,, observamos que, visto que v € Z;, temos que 
mde(v,n) = 1,e assim também mdc(v, n,) = 1; se v não tem nenhum divisor comum com n, cer- 
tamente não tem nenhum divisor comum com n,. Como w = v (mod n,), vemos que mde(w,n,) 
= 1. Trabalhando em módulo n,, observamos que w = 1 (mod n,) implica mde(w, n,) = 1. Para 
combinar esses resultados, usamos o Teorema 31.6, que implica que mdc(iw, n,n,) = mdce(rw, n) 
=1. Isto é,w € Zj. 

Assim, w € Z* — B,e finalizamos o Caso 2 concluindo que B é um subgrupo próprio de Z;. 


Em qualquer dos casos, vemos que o número de testemunhas de que n é composto é pelo menos 
(n — 1)/2. 


Teorema 31.39 


Para qualquer inteiro ímpar n > 2 e inteiro positivo s, a probabilidade de MiLer-RaBin(n, s) errar é no máximo 2-—s. 


Prova Usando o Teorema 31.38 vemos que, se n é composto, então cada execução do laço for das linhas 1-4 tem 
uma probabilidade de no mínimo 1/2 de descobrir uma testemunha x de que n é composto. MirLer-RaBiN SÓ cometerá 
um erro se for tão sem sorte que não descubra uma testemunha de que n é composto em cada uma das s iterações do 
laço principal. A probabilidade de ocorrer tal sequência é no máximo 2-s. 


Se n é primo, MiLer-RaBiN sempre retorna Prive, e se n é composto, a chance de MiLer-Rasin informar Prime é no 
máximo 2”s. 

Contudo, ao aplicarmos MirLer-RaBin a um inteiro grande n escolhido aleatoriamente, precisamos considerar 
também a probabilidade anterior de n ser primo, de modo a interpretar corretamente o resultado de MuLer-Rasnn. 
Suponha que fixamos um comprimento de bits e escolhemos aleatoriamente um inteiro n de bits de comprimento 
para teste de primalidade. Denotamos por 4 o evento de n ser primo. Pelo teorema dos números primos (Teorema 
31.37), a probabilidade de n ser primo é aproximadamente 


Pr(A) 1/Inn 


a 1,443/65. 


Agora, denotamos por B o evento de MiLEr-RaBin retornar Prime. Temos que 

Pr (B|Aj =0 (ou, o que é equivalente, Pr (B |4) = 1) e Pr [B | 4) <2-s (ou, o que é equivalente, Pr [B|4)>1 
— 2-5). 

Mas qual é Pr (4/5), a probabilidade de n ser primo, dado que MiLLE-rraBiN retornou Prime? Pela forma alternativa 
do teorema de Bayes (equação (C.18)) temos 


Q 


Prlayrr (Bla) 


PrlabprtBlab+ prlaypr(BlA) 
1 


1+2(Inn-1) 


PrlalB) = 


A 
a) 


Essa probabilidade não ultrapassa 1/2 até s exceder le(ln n — 1). Intuitivamente, esse mesmo número de tentativas 
iniciais é necessário só para que a confiança derivada de não termos encontrado uma testemunha de que n é composto 
supere o viés anterior em favor de n ser composto. Para um número com = 1.024 bíts, esse teste inicial requer 
aproximadamente 


ls(Inn — 1) 


Q 


lg(8B/1.443) 
= 9 


tentativas. De qualquer modo, escolher s = 50 deve ser suficiente para quase toda aplicação imaginável. 

Na verdade, a situação é muito melhor. Se estamos tentando encontrar primos grandes aplicando MiLLer-Rain à 
inteiros ímpares grandes escolhidos aleatoriamente, então é muito improvável que escolher um valor pequeno de s 
(digamos 3) leve a resultados errôneos, embora não provemos isso aqui A razão é que, para um inteiro ímpar 
composto n escolhido aleatoriamente, é provável que o número esperado de não testemunhas de que n é composto 
seja muito menor que (n — 1) /2. 

Entretanto, se o inteiro n não for escolhido aleatoriamente, o melhor que se pode provar é que o número de não 
testemunhas é no máximo (n — 1) / 4, usando uma versão melhorada do Teorema 31.38. Além do mais, existem inteiros 
n para os quais o número de não testemunhas é (n — 1) /4. 


Exercícios 


31.8-1 Prove que, se um inteiro ímpar n > 1 não é primo ou uma potência prima, existe uma raiz quadrada não trivial 
de 1 módulo n. 


31.8-2 X É possível fortalecer ligeiramente o teorema de Euler para a forma 


a“) = 1 (mod n) para todos Z:, 
onde p;---p” e A(n) é definido por 
An) = mme(ó(py'),--- Spy") (31.42) 


Prove que (n) | f(n). Um número composto n é um número de Carmichael se (n) | n — 1. O menor número de 
Carmichael é 561 = 3 - 11 - 17; aqui, (n) = mme(2, 10, 16) = 80, que é um divisor de 560. Prove que os 
números de Carmichael devem ser “livres de quadrados” (não divisíveis pelo quadrado de qualquer primo) e o 
produto de no mínimo, três primos. Por essa razão, eles não são muito comuns. 


31.8-3 Prove que, se x é uma raiz quadrada não trivial de 1, módulo n, então mdc(x — 1, n) e mde(x + 1, n) são 
divisores não triviais de n. 


31.9 + FaroRAçÃo DE INTEIROS 


Suponha que tenhamos um inteiro n que desejamos fatorar, isto é, decompor esse inteiro em um produto de 
primos. O teste de primalidade da seção anterior pode nos informar que n é composto, mas não nos informa os fatores 
primos de n. Fatorar um inteiro grande n parece ser muito mais difícil que simplesmente determinar se n é primo ou 
composto. Mesmo com os supercomputadores de hoje e com os melhores algoritmos existentes até agora, é inviável 
fatorar um número arbitrário de 1.024 bits. 


Heurística rô de Pollard 


É garantido que a tentativa de divisão por todos os inteiros até R fatora completamente qualquer número até R,. 
Para a mesma quantidade de trabalho, o procedimento a seguir, PocLarn-RHo, fatora qualquer número até R, (a menos 
da má sorte). Como o procedimento é apenas uma heurística, nem seu tempo de execução nem seu sucesso é 
garantido, embora o procedimento seja muito eficiente na prática. Outra vantagem do procedimento PoLLarD-RHo é que 
ele usa somente um número constante de posições de memória. (Se você quisesse, poderia implementar facilmente 
PorLarD-RHo em uma calculadora de bolso programável para determinar fatores de números pequenos.) 


PoLLARD-RHO(n) 


Lis 

2 x, = RANDOM(0,n — 1) 
3y4=X, 

4 k=2 

5 while TRUE 

6 f=t+1 

7 x =(w,—l)modn 


8 d = mdce(y — x,,n) 
9 ifdzledan 


10 imprima d 
11 TE | == 

2 V=, 

13 K=2k 


O procedimento funciona da seguinte maneira: as linhas 1-2 inicializam i como 1 e x, como um valor escolhido 
aleatoriamente em ,. O laço while que começa na linha 5 itera para sempre, buscando fatores de n. Durante cada 
iteração do laço while, a linha 77 usa a recorrência 


x, = EM - 1)mod n (31.43) 


para produzir o próximo valor de x, na sequência infinita 


Xe; (31.44) 


NX, X,3 Mg, Xp eee 


E o gaia 


e a linha 6 incrementa i correspondentemente. Por questão de clareza, o pseudocódigo utiliza variáveis x, com índices, 
mas o programa funciona do mesmo modo se todos os índices forem eliminados, já que somente o valor mais recente 
de x, precisa ser mantido. Com essa modificação, o procedimento utiliza somente um número constante de posições de 
memória. 

De vez em quando, o programa grava o valor x, gerado mais recentemente na variável y. Especificamente, os 
valores que são gravados são aqueles cujos índices são potências de 2: 


é Re. AR q a RD 


A linha 3 grava o valor x, e a linha 12 grava x,, sempre que i é iguala k. A variável k é inicializada como 2 na linha 4, e 
a linha 13 dobra esse valor sempre que a linha 12 atualiza y. Então, k segue a sequência 1, 2, 4, 8, ... e sempre dá o 
índice do próximo valor x, a ser gravado em y. 

As linhas 8-10 tentam encontrar um fator de n usando o valor gravado de y e o valor atual de x,. Especificamente, 
a linha 8 calcula o máximo divisor comum d = mdc(y — x;, n). A linha 9 determina que d é um divisor não trivial de n, e a 


linha 10 imprime d. 

Esse procedimento para encontrar um fator pode parecer um pouco misterioso a princípio. Contudo, observe que 
PoLLARD-RHO Nunca imprime uma resposta incorreta; qualquer número que ele imprime é um divisor não trivial de n. 
Entretanto, Porrarn-RHo poderia não imprimir nada; não há nenhuma garantia de que ele imprimirá algum divisor. 
Contudo, veremos que há uma boa razão para esperar que PortarD-RHo imprima um fator p de n depois de (Np) 
iterações do laço while. Assim, se n é composto, podemos esperar que esse procedimento descubra divisores 
suficientes para fatorar n completamente após aproximadamente n,, atualizações, já que todo fator primo p de n, 
exceto possivelmente o maior deles, é menor que Vn. 

Iniciamos nossa análise do comportamento desse procedimento estudando o tempo que demora para uma 
sequência aleatória módulo n repetir um valor. Visto que , é finito e que cada valor na sequência (31.44) depende 
apenas do valor anterior, a certa altura a sequência (31.44) se repete. Uma vez alcançado um x; tal que x, = x, para 


algum j < i, estamos em um ciclo, já que x;H =x, + 1,x,+2 =x, + 2, e assim por diante. A razão para o nome 
“heurística rô” é que, como mostra a Figura 31.7, podemos desenhar a sequência x,, x,, ..., x; - 1 como a “cauda” da 
letra grega rô, e o ciclo Xp X;+1,..., x; como o “corpo” da letra rô. 


Vamos considerar a questão do tempo necessário para que a sequência de x, se repita. Essa informação não é 
exatamente o que precisamos, mas veremos mais adiante como modificar o argumento. Para a finalidade dessa 
estimativa, vamos supor que a função 


fx) = (xº — 1) mod n 


se comporta como uma função “aleatória”. É claro que ela não é realmente aleatória, mas considerá-la como tal produz 
resultados compatíveis com o comportamento observado de Portarn-RHo. Então podemos supor que cada x, foi 
extraído independentemente de ,, de acordo com uma distribuição uniforme em ,. Pela análise do paradoxo do 
aniversário da Seção 5.4.1, espe>ramos que sejam executadas (Nn) etapas antes de a sequência começar a ciclar. 


Agora, vamos à modificação requerida. Seja p um fator não trivial den tal que mdc(p,n/p) = 1. 
Por exemplo, se a fatoração de n = Pp; pj io , então podemos supor que p é p:1. (Se e = 1, então p é 
apenas o menor fator primo de n, um bom exemplo para ter em mente.) 


A sequência (x) induz uma sequência correspondente módulo p, onde 


' 


x, =x, mod p 
! ! 
para todo i. 


Além disso, como f. é definido apenas por operações aritméticas (elevação ao quadrado e subtração) módulo n, 
podemos calcular x, + 1 a partir de x,” a visão “módulo p” da sequência é uma versão menor de que está acontecendo 
módulo n: 


X,4=%, mod p 


i+1 i 
= f(x) mod p 
= ((xº — 1)mod n) mod p 
= (x? — 1) mod p (por Exercício 31.1 — 7) 


= ((x, mod p)º — 1) mod p 
= ((x')? —1) mod p 


= a (º,)» 
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(a) (b) (c) 


Figura 31.7 A heurística rô de Pollard. (a) Os valores produzidos pela recorrência x, + 1 = (x - 1) mod 1387, começando comx, =2. A 
decomposição em fatores primos de 1.387 é 19 - 73. As setas grossas indicamas etapas de iteração que são executadas antes de o fator 
19 ser descoberto. As setas finas apontam para valores não alcançados na iteração, para ilustrar a forma “rô” . Os valores sombreados 
são os valores y armazenados por Portarp-rHo. O fator 19 é descoberto quando o procedimento alcança x, = 177, quando mdc(63 - 177, 
1.387) = 19 é calculado. O primeiro valor de x que se repetiria é 1.186, mas o fator 19 é descoberto antes de esse valor ser repetido. (b) 
Valores produzidos pela mesma recorrência, módulo 19. Todo valor x, dado na parte (a) é equivalente, módulo 19, ao valor x mostrado 
aqui. Por exemplo, tanto xa = 63 quanto x7 = 177 são equivalentes a 6, módulo 19. (c) Valores produzidos pela mesma recorrência, módulo 
73. Todo valor x, dado na parte (a) é equivalente, módulo 73, ao valor x”;mostrado aqui. Pelo teorema chinês do resto, cada nó na parte 
(a) corresponde a um par de nós, um da parte (b) e outro da parte (c). 


Assim, embora não calculando explicitamente a sequência (x, ), essa sequência é bem definida e obedece à mesma 
recorrência que a sequência (x). 

Pelo mesmo raciocínio de antes, verificamos que o número esperado de etapas antes de a sequência (x, ) se repetir 
é (Np). Se p é pequeno em comparação com n, a sequência (x; poderia se repetir muito mais rapidamente que a 
sequência (x,) . De fato, como as partes (b) e (c) da Figura 31.7 mostram, a sequência (x,”) se repete tão logo os dois 
elementos da sequência (x,) sejam só equivalentes módulo p, em vez de equivalentes módulo n. 

Seja t o índice do primeiro valor repetido na sequência (x, e seja u > O o comprimento do ciclo assim produzido. 
Isto é, teu > O são os menores valores tais que x, + 1 =x" +u+ i para todo i > 0. Pelos argumentos citados, os 


valores esperados de t e u são (p). Observe que, se (x, +1=x" +u+ id), então p | (x, +u+i—x, +?) Assim, mdc (x, 
+uti-x+in>l. 

Portanto, tão logo PoLLarn-RHo tenha gravado como y qualquer valor x, tal que k > t, então y mod p está sempre 
no ciclo módulo p. (Se um novo valor for gravado como y, esse valor também estará no ciclo módulo p.) A certa altura, 
k recebe um valor maior que u, e então o procedimento executa um laço inteiro ao redor do ciclo módulo p, sem mudar 
o valor de y. Então o procedimento descobre um fator de n quando x, se defronta com o valor previamente 
armazenado de y, módulo p, isto é, quando x, = y (mod p). 

Podemos presumir que o fator encontrado seja o fator p, embora ocasionalmente um múltiplo de p possa ser 
descoberto. Como os valores esperados de t e u são (Np), o número esperado de etapas necessárias para produzir o 
fator p é (Np). 

Esse algoritmo poderia não funcionar exatamente como esperado por duas razões. A primeira é que a análise 
heurística do tempo de execução não é rigorosa, e é possível que o ciclo de valores, módulo p, seja muito maior que 
(Np). Nesse caso, o algoritmo funciona corretamente, embora muito mais lentamente que o desejado. Na prática, essa 
questão parece ser irrelevante. 

A segunda é que os divisores de n produzidos por esse algoritmo poderiam ser sempre um dos fatores triviais 1 ou 
n. Por exemplo, suponha que n = pq, onde p e q são primos. Pode acontecer de os valores de t e u para p serem 
idênticos aos valores de t e u para q e, assim, o fator p é sempre revelado na mesma operação mdc que revela o fator 
q. Visto que ambos os fatores são revelados ao mesmo tempo, o fator trivial pg = n é revelado, o que é imútil. 
Novamente, esse problema parece ser insignificante na prática. Se necessário, a heurística pode reiniciar com uma 
recorrência diferente da forma x, + 1 =(x2: — cjmod n. (Devemos evitar os valores c = 0 e c = 2 por razões que não 
abordaremos aqui, mas os outros valores são bons.) 

É claro que essa análise é heurística e não rigorosa, já que a recorrência não é realmente “aleatória”. Todavia, o 
procedimento finciona bem na prática e parece ser tão eficiente quanto essa análise heurística indica. É o método 
preferido para encontrar fatores primos pequenos de um número grande. Para fatorar completamente um número 
composto n de bits, basta deter>minar todos os fatores primos menores que n,, e, portanto, esperamos que 
PoLLarD-RHo exija no máximo n,, = 2/4 operações aritméticas e, no máximo, n,, 4 = 2/4 2 operações com bits. A 
>capacidade de Portarn-Ruo para encontrar um fator pequeno p de n com um número esperado de (Np) operações 
aritméticas é, muitas vezes, sua característica mais atraente. 


Exercícios 


31.9-1 Consultando o histórico de execução mostrado na Figura 31.7(a), quando PorLarD-RHo imprime o fator 73 de 
1,387? 


31.9-2 Suponha que tenhamos uma função f:, — | e um valor inicialx, E |. Defina x, = flx, - D) parai=1,2,... 
Sejam t e u > 0 os menores valores tais que x, +i=x,+u+ipara i=0, 1,..... Na terminologia do algoritmo 
rô de Pollard, i é o comprimento da cauda e u é o comprimento do ciclo do rô. Dê um algoritmo eficiente 
para determinar í e u exatamente e analise seu tempo de execução. 


31.9-3 Quantas etapas você esperaria que PorLarn-RHo exija para descobrir um fator da forma p,, em que p seja 
primo ce> 1? 


31.9-4* Uma desvantagem de Porrarp-RHo como foi escrito é que ele exige um cálculo de mdc para cada etapa da 
recorrência. Em vez disso, poderíamos criar um lote de cálculos de mdc acumulando o produto de vários x, 
em uma linha e depois usando esse produto em vez de x, no cálculo do mdc. Descreva cuidadosamente como 
você implementaria essa ideia, por que ela funciona e que tamanho de lote você escolheria como o mais 
efetivo ao trabalhar com um número n de bits. 


Problemas 
31-1 Algoritmo binário de mdc 


A maioria dos computadores efetua operações de subtração, teste de paridade (ímpar ou par) de um inteiro 
binário e divisão por 2 mais rapidamente que o cálculo de restos. Este problema investiga o algoritmo de 
mdc binário, que evita os cálculos de resto usados no algoritmo de Euclides. 


a. Prove que, sea e b são pares, então mdc(a, b) = 2 mde(a/2, b/2). 
b. Prove que, se a é ímpar e b é par, então mdc(a, b) = mdc(a, b/2). 
c. Prove que, sea e b são ímpares, mde(a, b) = mdc((a - b)/2, b). 


d. Projete um algoritmo de mdc binário eficiente para inteiros de entrada a e b, onde a > b, que é executado 
no tempo O(lg a). Suponha que cada subtração, teste de paridade e divisão em metades possa ser 
executada em tempo unitário. 


31-2 Andlise de operações com bits no algoritmo de Euclides 


a. Considere o algoritmo comum de “lápis e papel” para a divisão longa: dividr a por b, >gerando um 
quociente q e um resto r. Mostre que esse método exige O((1 + lg q) Ig b) operações com bits. 


b. Defina u(a, b) = (1 + Ig a)(1 + lg b). Mostre que o número de operações com bits executadas por EucLin 
para reduzir o problema de calcular mdc(a, b) ao problema de calcular mdc(b, a mod b) é no máximo 
c(m(a, b) —- m(b, a mod b)) para alguma constante c > O suficientemente grande. 


c. Mostre que Evcuin(a, b) exige O(m(a, b)) operações com bits em geral e O(>) operações com bits quando 
aplicado a duas entradas de bits. 


31-3 Três algoritmos para números de Fibonacci 


Este problema compara a eficiência de três métodos para calcular o n-ésimo número de Fibonacci F,, dado 
n. Suponha que o custo de adicionar, subtrair ou multiplicar dois números seja O(1), independentemente do 
tamanho dos números. 


a. Mostre que o tempo de execução do método recursivo direto para calcular F, baseado na recorrência 
(3.22) é exponencial em n. (Veja, por exemplo, o procedimento FIB na página 775.) 


b. Mostre como calcular F,no tempo O(n) usando memoização. 


c. Mostre como calcular F, no tempo O(lg n) usando apenas adição e multiplicação de inteiros. (Sugestão: 
Considere a matriz 


01 
11 


e suas potências.) 


d. Agora, suponha que somar dois números de bits demora o tempo () e que multiplicar dois números de 
bits demora o tempo (>). Qual é o tempo de execução desses três métodos sob essa medida de custo 
mais razoável para as operações aritméticas elementares? 


31-4 Resíduos quadráticos 


Seja p um primo ímpar. Um número a E * é um resíduo quadrático se a equação x, = a (mod p) tem uma 
solução para a incógnita x. 


a. Mostre que existem exatamente (p — 1)/2 resíduos quadráticos, módulo p. 


b. Sep é primo, definimos o símbolo de Legendre (2) para a € Z como 1 se a é um resí- 
Pp 


duo quadrático módulo p e —1 em caso contrário. Prove que, sea € Z, , então 


2| =aº-9º (mod Pp). 
p 


Dê um algoritmo eficiente que determine se um dado número a é ou não um resíduo quadrático módulo p. 
Analise a eficiência de seu algoritmo. 


c. Prove que, se p é um primo da forma 4k + 3 e a é um resíduo quadrático em +», então a: + 1 mod p é 
uma raiz quadrada de a, módulo p. Quanto tempo é necessário para determinar a raiz quadrada de um 
resíduo quadrático a módulo p? 


d. Descreva um algoritmo aleatorizado eficiente para determinar um resíduo não quadrático, módulo primo p 
arbitrário, isto é, um membro de *» que não é um resíduo quadrático. Quantas operações aritméticas seu 
algoritmo exige em média? 


NorTas DO CAPÍTULO 


Niven e Zuckerman [265] dão uma excelente introdução à teoria elementar dos números. Knuth [210] contém uma 
boa discussão de algoritmos para encontrar o máximo divisor comum, bem como outros algoritmos básicos da teoria 
dos números. Bach [30] e Riesel [295] apresentam levantamentos mais recentes de teoria computacional dos números. 
Dixon [92] apresenta uma visão geral da fatoração e do teste de primalidade. Os procedimentos de conferências 
editados por Pomerance [280] contêm várias resenhas interessantes. Mais recentemente, Bach e Shallt [31] 
apresentaram uma cobertura excepcional dos conceitos básicos da teoria computacional dos números. 

Knuth [210] discute a origem do algoritmo de Euclides. Ele aparece no Livro 7, Proposições 1 e 2, de Elementos 
do matemático grego Euclides, que foi escrito em torno de 300 a.C. A descrição de Euclides pode ter sido derivada de 
um algoritmo criado por Fudoxus, por volta de 375 a.C. O algoritmo de Euclides pode ostentar a honra de ser o mais 
antigo algoritmo não trivial; ele só encontra rival em um algoritmo para multiplicação conhecido pelos antigos egípcios. 
Shalkt [312] narra a história da análise do algoritmo de Euclides. 

Knuth atribui um caso especial do teorema chinês do resto (Teorema 31.27) ao matemático chinês Sun-Tsu, que 
viveu em alguma época entre 200 a.C. e 200 d.C. — a data é bastante incerta. O mesmo caso especial foi apresentado 
pelo matemático grego Nichomachus por volta de 100 d.C., generalizado por Chin Chiu-Shao em 1247. O teorema 
chinês do resto foi finalmente enunciado e provado em sua total generalidade por L. Fuler, em 1734. 

O algoritmo aleatorizado do teste de primalidade apresentado aqui se deve a Miller [225] e Rabm [289]; é o 
algoritmo aleatorizado para teste de primalidade mais rápido que se conhece, a menos de fatores constantes. A prova 
do Teorema 31.39 é uma ligeira adaptação de uma sugerida por Bach [29]. Uma prova de um resultado mais forte para 


MILLER-RABIN foi dada por Monier [258, 259]. A aleatorização parece ser necessária para obter um algoritmo de 
teste de primalidade de tempo polinomial. O algoritmo determinístico mais rápido conhecido para teste de primalidade é 
a versão de Cohen-Lenstra [75] do teste de primalidade de Adleman, Pomerance e Rumely [3]. Ao testar a 
primalidade de um número n de comprimento é le(n + 1)u, ele é executado no tempo (lg n)O(lg Ig Ig n), que é apenas 
ligeiramente superpolinomial. 

O problema de encontrar primos grandes “aleatórios” é discutido agradavelmente em um artigo de Beauchemin, 
Brassard, Crépeau, Gutier e Pomerance [36]. 

O conceito de um sistema de criptografia de chave pública se deve a Difle e Hellman [88]. O sistema de 
criptografia RSA foi proposto em 1977 por Rivest, Shamir e Adleman [296]. Desde então, a área da criptografia 
floresceu. Nosso entendimento do sistema de criptografia SA se aprofundou, e implementações modernas utilizam 
refinamentos significativos das técnicas básicas apresentadas aqui. Além disso, muitas novas técnicas foram 
desenvolvidas para demonstrar que sistemas de criptografia são seguros. Por exemplo, Goldwasser e Micali [142] 
mostram que a aleatorização poder ser uma ferramenta efetiva no projeto de esquemas confiáveis de criptografia de 
chave pública. Para esquemas de assinaturas, Goldwasser, Micali e Rivest [143] apresentam um esquema de assinatura 
digital para o qual todo tipo concebível de falsificação é comprovadamente tão difícil quanto a decomposição em fatores 
primos. Menezes, van Oorschot, e Vanstone [254] apresentam uma visão geral da criptografia aplicada. 

A heurística rô para fatoração de inteiros foi criada por Pollard [277]. A versão apresentada aqui é uma variante 
proposta por Brent [57]. 

Os melhores algoritmos para fatorar números grandes têm um tempo de execução que cresce de forma 
aproximadamente exponencial com a raiz cúbica do comprimento do número n a ser fatorado. O algoritmo geral de 
fatoração de peneira de corpo numérico foi desenvolvido por Buhler, Lenstra e Pomerance [58] como uma extensão 
das idéias sobre o algoritmo de fatoração de peneira de corpo numérico criado por Polard [278] e Lenstra et al. [232] 
e refinado por Coppersmith [778] e outros é talvez o algoritmo mais eficiente em geral para grandes entradas. Embora 
seja dificil apresentar uma análise rigorosa desse algoritmo, sob hipóteses razoáveis podemos deduzir uma estimativa de 
tempo de execução igual a 1(1/3, n)1.902 + o(1), onde L(0, n) = € qu nyadin m tm)l = * 

O método de curva elíptica criado por Lenstra [233] pode ser mais efetivo para algumas entradas que o método 
de crivo de corpo de números já que, como o método rô de Pollard, ele pode encontrar um pequeno fator primo p com 


proc), 


bastante rapidez. Por esse método, o tempo para >encontrar p é estimado em L(1/2, p 


3 ») (CORRESPONDÊNCIA DE CADEIAS 


Frequentemente, os programas de edição de textos precisam encontrar todas as ocorrências de um padrão no 
texto. Em geral, o texto é um documento que está sendo editado, e o padrão procurado é uma palavra específica 
fomecida pelo usuário. Algoritmos eficientes para esse problema — denominados “algoritmos de correspondência de 
cadeias” — podem ajudar muito no nível de resposta do programa de edição de textos. Entre suas muitas outras 
aplicações, algoritmos de correspondência de cadeias procuram padrões particulares em sequências de DNA. 
Programas de busca na Internet também os usam para achar páginas relevantes para as consultas. 

Formalizamos o problema de correspondência de cadeias da maneira mostrada a seguir. Supomos que o texto seja 
um arranjo T[1 .. n] de comprimento n e que o padrão seja um arranjo P[1..m] de comprimento m < n. Supomos ainda 
que os elementos de P e T' sejam caracteres extraídos de um alfabeto finito S. Por exemplo, podemos ter S = (0, 1) ou 
S = (a, b,..., z;. Os arranjos de caracteres P e T são frequentemente denominados cadeias de caracteres. 

Referindo-nos à Figura 32.1, dizemos que o padrão P ocorre com deslocamento s no texto T (ou, o que é 
equivalente, que o padrão P ocorre começando na posição s+I notexto )se0<s<n-meTs+1.s+m]= 
P[1..m] (isto é, se TIs + j] = P[j], para 1 <j < m). Se P ocorre com deslocamento s em 7, então denominamos s 
deslocamento válido; caso contrário, denominamos s deslocamento inválido. O problema da correspondência de 
cadeias é o problema de encontrar todos os deslocamentos válidos com os quais um determinado padrão P ocorre em 
dado texto T. 

Com exceção do algoritmo ingênuo de força bruta, que examinamos na Seção 32.1, cada algoritmo de 
correspondência de cadeias neste capítulo executa algum pré-processamento baseado no padrão e depois encontra 
todos os deslocamentos válidos; denominamos essa fase posterior “correspondência”. A Figura 32.2 mostra os tempos 
de pré-processamento e correspondência para cada um dos algoritmos neste capítulo. O tempo de execução total de 
cada algoritmo é a soma dos tempos de pré-processamento e correspondência. A Seção 32.2 apresenta um 
interessante algoritmo de correspondências de cadeias, criado por Rabin e Karp. Embora o tempo de execução do pior 
caso Q((n — m + 1)m) desse algoritmo não seja melhor que o do método ingênuo, ele funciona muito melhor em média, 
na prática. O algoritmo também pode produzir generalizações interessantes para outros problemas de correspondência 
de padrões. A Seção 32.3 descreve um algoritmo de correspondência de cadeias que começa pela construção de um 
autômato finto projetado especificamente para procurar em um texto ocorrências do >padrão P dado. O tempo de 
pré-processamento desse algoritmo é O(ml|S|), mas o tempo de correspondência é somente Q(n). A Seção 32.4 
apresenta o algoritmo semelhante, porém muito mais inteligente, de Knuth-Morris-Pratt (ou KMP). Esse algoritmo tem 
o mesmo tempo de correspondência Q(n) e reduz o tempo de pré-processamento a apenas Q (m). 


text T alb|cla/b/aja/b/cla b|a E | 


pattern P 


Figura 32.1 Exemplo do problema da correspondência de cadeias, no qual queremos encontrar todas as ocorrências do padrão P = abaa 
no texto Tabcabaabcabac . O padrão ocorre apenas uma vezno texto, no deslocamento s = 3, que denominamos deslocamento válido. 
Uma linha vertical liga cada caractere do padrão a seu caractere correspondente no texto, e todos os caracteres para os quais ocorreu a 
correspondência estão sombreados. 


Notação e terminologia 


Denotamos por S* (lê-se “sigma estrela”) o conjunto de todas as cadeias de comprimento finito extraídas do 
alfabeto S. Neste capítulo, consideramos somente cadeias de comprimento finito. A cadeia vazia de comprimento 
zero, denotada por , também pertence a S*. O comprimento de uma cadeia x é denotado por |x|. A concatenação de 
duas cadeias x e y, representada por xy, tem comprimento |x| + |y| e consiste nos caracteres de x seguidos pelos 
caracteres de y. 

Dizemos que uma cadeia w é um prefixo de uma cadeia x, denotada por w x, sex = wy >para alguma cadeia y 
E S*. Observe que, sew x, então |w| < |x|. De modo semelhante, dize>mos que uma cadeia w é um sufixo de uma 
cadeia x, representada por sex  yw para algum y & S*. Do mesmo modo que para um prefixo, w x implica |w| < 
|x|. Por exemplo, temos ab 'abccaecca abceca. A cadeia vaza é um sufixo e também um prefixo para todas as 
cadeias. Para quaisquer cadeias x e y e qualquer caractere a, temos x ysee somente sexa ya. Observe também 
que e são relações transitivas. O lema a seguir será útil mais adiante. 


Lema 32.1 (Lema dos sufixos sobrepostos) 


Suponha que x,y ez sejam cadeias tais que x zey z.Seb|</) enãox y.Se|x|>|/)entãoy x. Se|x|= 
|/|, então x = . 


Prova Consulte a Figura 32.2 para ver uma prova gráfica. 


Para abreviar a notação, denotamos o prefixo de k caracteres P[1..k] do padrão P[1..m] por P,. Assm,P,= e 
P,=P= P[1..m]. De modo semelhante, denotamos o prefixo de k caracteres do texto T por T,. Usando essa 
notação, podemos enunciar o problema da correspondência de cadeias como o de encontrar todos os deslocamentos s 
no intervalo 0<s<n-mtasqueP T+m, 

Em nosso pseudocódigo, permitimos que a comparação para determinação da igualdade de duas cadeias de 
comprimentos iguais seja uma operação primitiva. Se as cadeias são comparadas da esquerda para a direita e a 
comparação parar quando for descoberta uma incompatibilidade, supomos que o tempo despendido por tal teste é 
função linear do número de caracteres correspondentes descobertos. Para sermos precisos, supomos que o teste “x == 
y” demora o tempo Q(t + 1), onde t é o comprimento da mais longa cadeia ztalquez x ez y. (Escrevemos Q(t + 
1) em vez de Q(t) para tratar o caso no qual t = 0; os primeiros caracteres comparados não são correspondentes, mas 
fazer essa comparação demora uma quantidade de tempo positiva.) 


| SS | 


Algoritmo Tempo de pré-processamento Tempo de correspondência 
Ingênuo 0 O((n - m + Dm) 
Rabin-Karp O(m) O((n -m + Dm) 
Autômato finito O(m|D!|) O(n) 
Knuth-Morris-Pratt O(m) O(n) 


Figura 32.2 Os algoritmos de correspondência de cadeias neste capítulo e seus tempos de pré-processamento e correspondência. 


x x x 
Z Z é 
o E 
x X | x 
» y y 
(a) (b) (c) 


Figura 32.3 Uma prova gráfica do Lema 32.1. Supomos quex zey z. As três partes da figura ilustram os três casos do lema. Linhas 
verticais ligamregiões correspondentes (sombreadas) das cadeias. (a) Se |x| |7), então x y. (b) Se x | |y |, então y x. (c) Se |x |=|y | então 
Xx=). 


32.1 (COALGoRITMO INGÊNUO DE CORRESPONDÊNCIA DE CADEIAS 


O algoritmo ingênuo encontra todos os deslocamentos válidos usando um laço que verifica a condição P[1 ..m] = 
T|s+ 1..s+m] para cada um dos n — m + 1 valores possíveis de s. 


NarvE-STRING-MATCHER(T, P) 

1n=T. comprimento 

2 m=pP. comprimento 

3 fors=Oton-m 

4 ifP[1.m)==T|s+1..s+m] 

5 imprimir “Padrão ocorre com deslocamento” s 


A Figura 32.4 retrata o procedimento mgênuo de procurar a correspondência como fazer deslizar sobre o texto um 
“oabarito” que contém o padrão e observar para quais deslocamentos todos os caracteres no gabarito são iguais aos 
caracteres correspondentes no texto. O laço for nas linhas 3-5 considera cada deslocamento possível explicitamente. O 
teste na linha 4 determina se o deslocamento em questão é válido ou não; esse teste executa o laço implicitamente para 
verificar posições de caracteres correspondentes até que todas as posições correspondam ou até ser encontrada uma 
incompatibilidade. A linha 5 imprime cada deslocamento s válido. 

O procedimento Naive-String- Matcher demora o tempo O((n — m + Dm), e esse limite é justo no pior caso. Por 
exemplo, considere a cadeia de texto a, (uma cadeia de n caracteres a) e o padrão am. Para cada um dosn —- m + 1 
valores possíveis do deslocamento s, o laço implícito na linha 4 para comparar caracteres correspondentes deve ser 
executado m vezes para validar o deslocamento. Assim, o tempo de execução do pior caso é Q((n — m + Dm), que é 
Q(n,) se m = n/2. Como não requer nenhum pré-processamento, o tempo de execução de Naive-String-Matcher é 
igual ao seu tempo de correspondência. 


| 


alc/a[a/b[c| jalc[afa[b/c alcla[a[b|c [alc[a[a[b[c 
| 4 5 | | | " z 
s=0 8 al|b “cia a b | Rio a a[b) PN. 2 »Wala b | 
(a) (b) (c) (d) 


Figura 32.4 A operação do algoritmo de correspondência de cadeias ingênuo para o padrão P=aab e o texto T= acaabc. Podemos 
imaginar o padrão P como um gabarito que fazemos deslizar próximo ao texto. (a)-(d) Os quatro alinhamentos sucessivos tentados pelo 
algoritmo de correspondência de cadeias ingênuo. Em cada parte, linhas verticais ligamregiões correspondentes que coincidem como 
gabarito (sombreadas), e uma linha quebrada liga o primeiro caractere incompatível, se houver. O algoritmo encontra uma ocorrência do 
padrão, no deslocamento s = 2, mostrada na parte (c). 


Como veremos, Naive-String-Matcher não é um procedimento ótimo para esse problema. Na realidade, neste 
capítulo veremos que o algoritmo K nuth-Morris-Pratt é muito melhor para o pior caso. O matcher de cadeias ingênuo é 
ineficiente porque ignora inteiramente informações adquiridas do texto para um valor de s quando considera outros 
valores de s. Porém, tais informações podem ser muito valiosas. Por exemplo, se P = aaab e descobrirmos que s = O é 
válido, então nenhum dos deslocamentos 1, 2 ou 3 é válido, já que T[4] = b. Nas próximas seções, examinaremos 
diversas maneiras de fazer uso efetivo desse tipo de informação. 


Exercícios 


32.1-1 


32.1-2 


32.1-3 


32.1-4 


Mostre as comparações que o matcher de cadeias ingênuo realiza para o padrão P = 0001 no texto T = 
000010001010001. 


Suponha que todos os caracteres no padrão P sejam diferentes. Mostre como acelerar Naive-String-Matcher 
para ser executado no tempo O(n) em um texto T' de n caracteres. 


Suponha que o padrão P e o texto T sejam cadeias de comprimento m e n, respectivamente, escolhidas 
aleatoriamente de um alfabeto d-ário Sá = 40, 1,...,d-— 1), onde d>2. 


Mostre que o número esperado de comparações de caractere para caractere feitas pelo laço implícito na linha 
4 do algoritmo ingênuo é 
—m 


(n-m+1) <2M(n-m+1) 


—1 


para todas as execuções desse laço. (Suponha que o ingênuo interrompe a comparação de caracteres para 
um dado deslocamento, uma vez encontrada uma incompatibilidade ou se o padrão inteiro coincidir.) Assim, 
para cadeias escolhidas aleatoriamente, o algoritmo ingênuo é bastante eficiente. 


Suponha que permitimos que o padrão P contenha ocorrências de um caractere lacuna O que pode 
corresponder a uma cadeia de caracteres arbitrária (mesmo uma cadeia de comprimento zero). Por 
exemplo, o padrão abObadc ocorre no texto como cabccbacbacab 


cab Cc Da cba cab 
—— 
ab rs ba O : 


€ como 


cab cchãc báã - Gab 
Nemo? ai bo e a a 
ab O ba 4 c 


Observe que o caractere lacuna pode ocorrer um número arbitrário de vezes no padrão, mas de modo algum 
no texto. Dê um algoritmo de tempo polinomial para determinar se tal padrão P ocorre em um dado texto T e 
analise o tempo de execução de seu algoritmo. 


32.2 Oasrcoritrmo Rasin-KaRrP 


Rabn e Karp propuseram um algoritmo de correspondência de cadeias que finciona bem na prática e que também 
pode ser generalizado para outros algoritmos para problemas relacionados, como o da correspondência de padrões 
bidimensionais. O algoritmo Rabin-Karp usa o tempo de pré-processamento Q(m), e seu tempo de execução do pior 
caso é Q((n — m + Dm). Todavia, com base em certas hipóteses, seu tempo de execução do caso médio é melhor. 

Esse algoritmo faz uso de noções elementares da teoria dos números, como a equivalência de dois números 
módulo um terceiro número. Seria interessante consultar a Seção 31.1, que apresenta as definições relevantes. 

Para fins de explanação, vamos supor que S = (0,1,2,...,9!, de modo que cada caractere seja um digito decimal. 
(No caso geral, podemos supor que cada caractere seja um dígito em base d, onde d = |S|.) Então, podemos ver uma 
cadeia de k caracteres consecutivos como a representação de um número decimal de comprimento k. Assim, a cadeia 
de caracteres 31415 corresponde ao número decimal 31.415. Como interpretamos os caracteres de entrada como 
símbolos gráficos e dígitos, nesta seção achamos que é conveniente denotá-los como denotaríamos dígitos, em nossa 
fonte de texto padrão. 

Dado um padrão P[1..m], seja p seu valor decimal correspondente. De modo semelhante, dado um texto TT1..n], 
seja t,o valor decimal da subcadeia de comprimento m T[s + 1..s+m], paras = 0, 1,...,n —m. Certamente, t, = p se 
e somente se T[s + 1..s + m] = P[1..m]; assim, s é um deslocamento válido se e somente se t, = p. Se pudéssemos 
calcular p no tempo Q(m) e todos os valores t, em um tempo total Q(n — m + 1), poderíamos determinar todos os 
deslocamentos válidos s no tempo Q(m) + Q(n — m + 1) = Q(n), comparando p com cada um dos valores t,. (Por 
enquanto, não vamos nos preocupar com a possibilidade de que p e os valores de t, possam ser números muito 
grandes.) 

Podemos calcular p no tempo Q(m) usando a regra de Homer (veja a Seção 30.1): 


p = P[m] + 10 (P[m — 1] + 10(P[m — 2] +... + 10(P[2] + 10P[1))...)). 
De modo semelhante, podemos calcular t, por 7[1..m] no tempo Q(m). 


Para calcular os valores restantes t,, t,, ..., t, - " no tempo Q(n — m), observe que podemos calcular t, + 1 a partir 
de t, em tempo constante, já que 


E. = 10(t,- 10" "'T[s + 1D + Tls+m + 1]. (32.1) 


1 


Subtrair 10» - 1T[s + 1] elimina o dígito de ordem mais alta de t , multiplicar o resultado por 10 desloca o número uma 
posição de dígito para a esquerda e somar T[s + m + 1] introduz o dígito de ordem baixa adequado. Por exemplo, se 
m=5et,= 31415, desejamos elimmar o dígito de ordem mais alta T[s + 1] = 3 e introduzir o novo dígito de ordem 
baixa (suponha que ele seja 7[s + 5 + 1] = 2) para obter 


t,4 = 10(31415 - 10000 - 3) + 2 
= 14152. 


Se calcularmos a constante 10m - 1 com antecedência (o que pode ser feito no tempo O(lg m) usando as técnicas 
da Seção 31.6, embora para essa aplicação um método direto de O(m) seja suficiente), cada execução da equação 


(32.1) toma um número constante de operações aritméticas. Assim, podemos calcular p no tempo Q(m) e calcular 
todos os ty, tj, ..., t, - " no tempo Q(n — m + 1). Portanto, podemos encontrar todas as ocorrências do padrão 
P[1..m] no texto T[1..n] como tempo de pré-processamento Q(m) e o tempo de correspondência Q(n — m + 1). 

Até agora ignoramos intencionalmente um problema: p e t, podem ser demasiadamente grandes para que possamos 
trabalhar com eles de uma forma conveniente. Se P contém m caracteres, não seria razoável considerar que cada 
operação aritmética para p (que tem m dígitos de comprimento) demora um “tempo constante”. Felizmente, é fácil 
resolver esse problema, como mostra a Figura 32.5: calcule p e os valores t, módulo um módulo adequado q. Podemos 
calcular p módulo p, no tempo Q(m) e todos os valores t, módulo q no tempo Q(n — m + 1). Se escolhermos o módulo 
q como um primo tal que 10g caiba em uma palavra de computador, poderemos executar todos os cálculos necessários 
com aritmética de precisão simples. Em geral, com um alfabeto d-ário (0, 1, ... d — 1), escolhemos q de modo que dg 
caiba em uma palavra de computador e ajustamos a equação de recorrência (32.1) para calcular com módulo q; assim, 
ela se torna 


t..1= (d(t,- Ts + 1]h) + T[s + m + 1] mod g. (32.2) 


s+ 


[2l3[s[9o/o/2]3 


123 4 5 678 9/10/11/121314/1516 17/18/19 


8/9/3]11/0]1 88] 8/4/5]10/11/80 9/11 


ocorrência acerto 
válida espúrio 
(b) 
antigo novo antigo novo 
dígito de ordem dígito de ordem dígito de ordem dígito de ordem 
mais alta mais alta mais alta deslocamento mais alta 


14152 = (31415 - 3:10000):10 + 2 (mod 13) 
=(7-3:3)10+2 (mod 13) 
= 8 (mod 13) 


1[4[1[5)2 


(c) 


Figura 32.5 O algoritmo Rabin-Karp. Cada caractere é um dígito decimal, e calculamos valores módulo 13. (a) Uma cadeia de texto. Uma 
janela de comprimento 5 está sombreada. O valor numérico do número sombreado, calculado módulo 13, produz valor 7. (b) A mesma 


cadeia de texto com valores calculados módulo 13 para cada posição possível de uma janela de comprimento 5. Considerando o padrão P 
= 31415, procuramos janelas cujo valor módulo 13 seja 7, já que 31415 =7 (mod 13). O algoritmo encontra duas dessas janelas, 
sombreadas na figura. A primeira, que começa na posição de texto 7, é de fato uma ocorrência do padrão, enquanto a segunda, que 
começa na posição de texto 13, é umacerto espúrio. (c) Como calcular o valor para uma janela em tempo constante, dado o valor para a 
janela anterior. A primeira janela tem valor 31415. Descartando o dígito 3 de ordem mais alta, deslocando-se para a esquerda 
(multiplicando por 10) e depois somando o dígito de ordem baixa 2 resulta o novo valor 14152. Como todos os cálculos são executados 
módulo 13,0 valor para a primeira janela é 7 e o valor calculado para a nova janela é 8. 


onde h = d, - ! (mod q) é o valor do dígito “1” na posição de ordem alta de uma janela de texto de m dígitos. 

Entretanto, a solução para trabalhar com módulo q não é perfeita: t, = p (mod q) não implica que t, = p. Por outro 
lado, se t, p (mod q), então definitivamente temos que t, 4 p, de modo que o deslocamento s é não válido. Assim, 
podemos usar o teste t, = p (mod q) como um teste heurístico rápido para eliminar deslocamentos s não válidos. 
Qualquer deslocamento s para o qual t, = p (mod q), deve passar por um teste adicional para verificar se s é realmente 
válido ou se temos apenas um acerto espúrio. Esse teste adicional verifica explicitamente a condição P[1 ..m] = T[s + 
1..s+m]. Se q é suficientemente grande, esperamos que a ocorrência de acertos espúrios seja infrequente o suficiente 
para que o custo da verificação extra seja baixo. 

O procedimento a seguir torna essas ideias precisas. As entradas para o procedimento são o texto T, o padrão P, 
a base d a utilizar (que em geral é considerada |S| ) e o primo q a empregar. 


RaBIN-KARP-MATCHER(T, P, d, q) 
1 n=T. comprimento 

2m=pP comprimento 

3 h=d"-!modq 


4p=0 
5 t=0 
6 fori—ltom /| pré-processamento 


7 p = (dp + Pl[i]) mod q 
8 t, = (dt, + T[i]) mod q 
9 fors=0Oton-m [l correspondência 


10 ifp==t, 

1 if P[1..m] = T[s + 1..s+m] 

12 imprimia “Padrão ocorre com deslocamento” s 
13 ifs<n-m 

14 t,1 = (d(t, — T[s + 1]h) + Tls + m + 1]) mod q 


O procedimento Rabin-Karp-Matcher funciona da seguinte maneira: todos os caracteres são interpretados como 
dígitos em base d. Os índices em t são fornecidos apenas por clareza; o programa funciona corretamente se todos os 
índices forem descartados. A linha 3 inicializa h com o valor da posição de dígito de ordem mais alta de uma janela de 
m dígitos. As linhas 4-8 calculam p como o valor de P[1...m] mod q e t, como o valor de T[1 .. m] mod q. O laço for 
das linhas 9-14 itera por todos os deslocamentos s possíveis, mantendo o seguinte invariante: 


Sempre que a linha 10 é executada, t,= T[s + 1..s+m] mod q. 


Se p = t, na linha 10 (um “acerto”, então a linha 11 verifica se P[1..m] = T[s + 1..,s + m] para eliminar a 
possibilidade de um acerto espúrio. A linha 12 imprime quaisquer deslocamentos válidos encontrados. Ses <n —- m 
(verificado na linha 13), então o laço for será executado no mínimo mais uma vez e, assim, a linha 14 é executada antes 
para garantir que o invariante de laço será válido quando voltarmos para a linha 10. A linha 14 calcula o valor de 7, + 1 
mod q pelo valor de t, mod q em tempo constante, usando a equação (32.2) diretamente. 


Rabin-Karp-Matcher demora o tempo de processamento Q(m) e o tempo de correspondência é Q((n — m + Dm) 
no pior caso, já que (como no algoritmo ingênuo de correspondência de cadeias) o algoritmo de Rabin-Karp verifica 
explicitamente todo deslocamento válido. Se P= am e T=a,, então a verificação demora o tempo Q((n — m + Dm), 
visto que cada um dos n — m + 1 deslocamentos possíveis é válido. 

Em muitas aplicações, esperamos alguns deslocamentos válidos (talvez alguma constante c deles). Nessas 
aplicações, o tempo de correspondência esperado do algoritmo é apenas O((n —- m + D) + cm) = O(n + m), mais o 
tempo necessário para processar acertos espúrios. Podemos basear uma análise heurística na seguinte hipótese: a 
redução dos valores módulo q age como um mapeamento aleatório de S* para q. (Veja a discussão sobre o uso da 
divisão para hashing na Seção 11.3.1. É difícil formalizar e provar tal hipótese, embora uma abordagem viável seja 
supor que q é escolhido aleatoriamente entre inteiros de tamanho adequado. Não buscaremos essa formalização aqui.) 
Então, podemos esperar que o número de acertos espúrios seja O(n/q), já que podemos estimar que a chance de que 
um f, arbitrário será equivalente a p, módulo q, é 1/g. Visto que há O(n) posições nas quais o teste da linha 10 falha e 
gastamos o tempo O(m) para cada acerto, o tempo de correspondência do algoritmo Rabin-Karp é 


O(n) + Olim(v + n/g)) , 


onde v é o número de deslocamentos válidos. Esse tempo de execução é O(n) se v = O(1) e escolhemos q > m. Isto é, 
se o número esperado de deslocamentos válidos é pequeno (O(1)) e escolhermos o primo q maior que o comprimento 
do padrão, então podemos esperar que o procedimento de Rabin-Karp use somente tempo de correspondência O(n + 
m). Como m <n, esse tempo de correspondência esperado é O(n). 


Exercícios 


32.2-1. Trabalhando com módulo q = 11, quantos acertos espúrios o procedimento de Rabin-karp matcher encontra 
no texto T= 3141592653589793 ao procurar o padrão P = 267 


32.2-2 Como você estenderia o método Rabm-Karp ao problema de examinar uma cadeia de texto em busca de 
uma ocorrência de qualquer padrão de um dado conjunto de k padrões? Comece supondo que todos os k 
padrões têm o mesmo comprimento. Então generalize sua solução para permitir que os padrões tenham 
comprimentos diferentes. 


32.2-3 Mostre como estender o método Rabin-Karp para tratar o problema de procurar por um padrão m - m dado 
em um arranjo de caracteres n : n. (O padrão pode ser deslocado na vertical e na horizontal, mas não pode 
ser girado.) 


32.2-4 Alice tem uma cópia de um longo arquivo de n bits 4 = (a, - 1,a,- 2,..., ao) e Bob tem um outro arquivo de 
nbitsB=(b,-1,b,-2,..., by). Alice e Bob desejam saber se seus arquivos são idênticos. Para evitar 
transmitir os arquivos 4 ou B inteiros, eles usam a seguinte verificação probabilística. Juntos, os dois 
selecionam um primo q > 1000n e selecionam aleatoriamente um inteiro x de (0, 1,... gq — 1). Então, Alice 
avalia 


n—1 
digj= >. ax |modg 
1=0 
e Bob também avalia B(x). Prove que, se 4 * B, existe no máximo uma chance em 1.000 de que A(x) = B(x); 


por outro lado, se os dois arquivos forem iguais, 4(x) é necessariamente igual a B(x). (Sugestão: Veja o 
Exercício 31.4-4.) 


32.3 (CORRESPONDÊNCIA DE CADEIAS COM AUTÔMATOS FINITOS 


Muítos algoritmos de correspondência de cadeias constroem um autômato finto — uma máquina simples para 
processar informações — que varre a cadeia de texto T em busca de todas as ocorrências do padrão P. Esta seção 
apresenta um método para construir tal autômato. Esses autômatos de correspondência de cadeias são muito eficientes: 
examinam cada caractere de texto exatamente uma vez e demoram tempo constante por caractere de texto. Portanto, 
o tempo de correspondência usado — após o pré-processamento do padrão para construir o autômato — é Q(n). 
Porém, o tempo para construir o autômato pode ser grande, se S é grande. A Seção 32.4 descreve um modo esperto 
de contornar esse problema. 

Começamos esta seção com a definição de autômato finito. Em seguida, examinamos um autômato especial de 
correspondência de cadeias e mostramos como usá-lo para encontrar ocorrências de um padrão em um texto. 
Finalmente, mostraremos como construir o autômato de correspondência de cadeias para um padrão de entrada dado. 


Autômatos finitos 


Um autômato finito M , ilustrado na Figura 32.6, é uma 5-tupla (O, q, 4, S, d), onde 

* Qé umconjunto finito de estados, 

* q E Qéo estado inicial, 

* A€ Qéumconjunto distinto de estados aceitadores, 

* Sé umalfabeto de entrada finto, 

* dé uma função de O x S em O, denominada função de transição de M. 

O autômato finito começa no estado q, e lê os caracteres de sua cadeia de entrada um por vez. Se o autômato está 
no estado q e lê o caractere de entrada a, passa (“faz uma transição”) do estado q para o estado d (q, a). Sempre que 
seu estado atual q é um membro de 4, a máquina M aceitou a cadeia lida até então. Uma entrada que não é aceita é 
rejeitada. 

Um autômato finito M induz uma função f denominada função estado final, de S* a O, tal que f(w) é o estado 
em que M termina após ter escaneado a cadeia w. Assim, M aceita uma cadeia w se e somente se flw) E 4. Definimos 
a função f recursivamente usando a função transição: 


dle) = qo, 
ó(wa)= ó(d(w),a) paraweS,aesx 


a 


state a b «a. 
o [1/0 
1 |0]0 b 


(a) (b) 


Figura 32.6 Umautômato finito simples de dois estados como conjunto de estados Q = (0, 1), estado inicial q, = O e alfabeto de 
entrada S = fa,b). (a) Uma representação tabular da função de transição d. (b) Um diagrama de transição de estados equivalente. O 


estado 1, mostrado emnegro, é o único estado aceitador Arestas dirigidas representam transições. Por exemplo, a aresta do estado 1 


669) 


para o estado O identificada por b indica que d(1, b) = 0. Esse autômato aceita as cadeias que terminam em um número ímpar de “a” s. 
Mais precisamente, aceita uma cadeia x se e somente se x = yz, onde y = e ou y termina comumb e z = ax, onde k é ímpar. Por exemplo, 
na entrada abaaa, incluindo o estado inicial, esse autômato segue a sequência de estados (0, 1,0, 1,0, 1), portanto aceita essa entrada. 
Para a entrada abbaa, ele segue a sequência de estados (0, 1,0,0, 1,0) e, portanto, rejeita essa entrada. 


Autômatos de correspondência de cadeias 


Para um padrão P dado, construímos um autômato de correspondência de cadeias em uma etapa de pré- 
processamento antes de usá-lo para procurar a cadeia de texto. A Figura 32.7 ilustra o autômato para o padrão P = 
ababaca. Daqui em diante, suporemos que P seja uma cadeia de padrão fixo dada; por brevidade, não indicamos a 
dependência de P em nossa notação. 

Para especificar o autômato de correspondência de cadeias relacionado a um padrão P[1..m] dado, primeiro 
definimos uma função auxiliar s, denominada função sufixo correspondente a P. A função s mapeia S* para (0, 1,..., 
m: tal que s(x) é o comprimento do prefixo mais longo de P que é um sufixo de x: 


o(x) = max (k: P, O 2º). (32.3) 


A função sufixo s é bem definida, visto que a cadeia vazia P,= é um sufixo de toda cadeia. Como exemplos, para o 
padrão P = ab, temos s() = 0, s(ccaca) = 1 e s(ccab) = 2. Para um padrão P de comprimento m, temos s(x) = m se € 
somente se P x. Pela definição da finção sufixo, x y implica s(x) < s(x). 


(a) 
entrada 
estado a b c P 
0 a 
l b 
2 a 
3 b 
4 a 
5 e i— 12345678 91011 
6 a Tlij-abababacaba 
7 estado P(TP | 234545 66H52: 
(b) (c) 


Figura 32.7 (a) Um diagrama de transição de estados para o autômato de correspondência de cadeias que aceita todos as cadeias que 
terminam coma cadeia ababaca. O estado O é o estado inicial, e o estado 7 (mostrado emnegro) é o único estado aceitador. Uma aresta 
dirigida do estado i para o estado j identificada por a representa d(i, a) =j. Exceto pela aresta do estado 7 para 02, as arestas dirigidas 
para a direita, que formam a “espinha dorsal” do autômato, representadas na figura pelas setas grossas emnegro, correspondem a 


comparações bem-sucedidas entre caracteres do padrão e da entrada. Exceto pela aresta do estado 7 para 02, as arestas dirigidas para a 
esquerda correspondem a comparações mal-sucedidas. Algumas arestas correspondentes a comparações mal-sucedidas não são 
mostradas; por convenção, se um estado i não temnenhuma aresta de saída identificada por a para alguma ES, então d(i, a)=0. (b) A 
função transição d correspondente e a cadeia de padrão P = ababaca. As entradas correspondentes a comparações bem-sucedidas 
entre os caracteres do padrão e de entrada aparecem sombreadas. (c) A operação do autômato no texto T= abababacaba. Sob cada 
caractere de texto T'[i ] é dado o estado KT; ) em que o autômato está depois de processar o prefixo 7; . O autômato encontra uma 
ocorrência do padrão e termina na posição 9. 


Definimos o autômato de correspondência de cadeias relativo a um padrão P[1 .. m] dado da seguinte manera: 


* O conjunto de estados O é (0, 1, ...., mj. O estado inicial go é o estado 0, e o estado m é o único estado 
aceitador. 
* A função transição d é definida pela seguinte equação, para qualquer estado q e caractere a: 


ó(g,a) = (Pa) (32.4) 


Definimos d(g, a) = s(P,a) porque queremos manter o controle do prefixo mais longo do padrão P que 
correspondeu à corrente de texto T' até agora. Consideramos os caracteres de T lidos mais recentemente. Para que uma 
subcadeia de 7 — digamos a subcorrente que termina em T[i] — corresponda a algum prefixo P; de P, esse prefixo P, 
deve ser um sufixo de T,. Suponha que q = f(T)), de modo que, após ler T,, o autômato está no estado q. Projetamos a 
função transição d de modo que esse número de estado, q, nos informe o comprimento do prefixo mais longo de P que 
corresponde a um sufixo de T;. Isto é, no estado q, P, T;eq(T). (Sempre que q = m, todos os m caracteres de P 
correspondem a um sufixo de T, e, portanto, encontramos uma correspondência.) Assim, visto que H(T,) e s(T;) são 
iguais a q, veremos (no Teorema 32.4, mais adiante) que o autômato mantém o seguinte invariante: 


HT) =0(T) (32.5) 


! 


Se o autômato está no estado q e lê o próximo caractere T[i + 1] = a, então queremos que a transição leve ao estado 
correspondente ao prefixo mais longo de P que é um sufixo de 7, a, e esse estado é s(T; a). Como P é o prefixo mais 
longo de P que é um sufixo de T;, o prefixo mais longo de P que é um sufixo de T, a não é somente s(T, a), mas 
também s(P, a). (O Lema 32.3 prova que s(T,a) = s(P,a).) Assim, quando o autômato está no estado q, queremos que 
a função transição no caractere a leve o autômato para o estado s(P a). 

Há dois casos a considerar. No primeiro caso, a = P[g + 1] de modo que o caractere a continua a corresponder 
ao padrão; nesse caso, como d(g, a) = q + 1, a transição continua a ocorrer ao longo da “espinha dorsal” do autômato 
(arestas grossas em negro na Figura 32.7). No segundo caso, a £ Plg + 1], de modo que a não continua a 
corresponder ao padrão. Aqui, temos de encontrar um prefixo menor de P que também é um sufixo de T,. Como a 
etapa de pré-processamento compara o padrão com ele mesmo quando criamos o autômato de correspondência de 
cadeias, a função transição identifica rapidamente o mais longo de tais prefixos mais curtos de P. 

Vamos examinar um exemplo. O autômato de correspondência de cadeias da Figura 32.7 tem d(5, c) = 6, 
ilustrando o primeiro caso, no qual a correspondência continua. Para ilustrar o segundo caso, observe que o autômato 
da Figura 32.7 tem d(5, b) = 4. Fazemos essa transição porque, se o autômato lê um b no estado q = 5, então Pb = 
ababab, e o prefixo mais longo de P que também é um sufixo de ababab é P, = abab. 

Para esclarecer a operação de um autômato de correspondência de cadeias, damos agora um programa simples e 
eficiente para simular o comportamento de tal autômato (representado por sua função transição d) ao encontrar 
ocorrências de um padrão P de comprimento m em um texto de entrada T[1 .. n]. Como em qualquer autômato de 
correspondência de cadeias para um padrão de comprimento m, o conjunto de estado O é 10, 1,...., m), o estado 
inicial é O e o único estado aceitador é o estado m. 


| 


Figura 32.8 (a) Ilustração para a prova do Lema 32.2. A figura mostra que r<s(x)+ 1, onde r=s(x a). 


Figura 32.9 Ilustração para a prova do Lema 32.3. A figura mostra que r=s(P, a), onde q =s(x) e r=s(xa). 


FiNITE-AUTOMATON-MATCHER(T, ô,m) 

1n=T. comprimento 

24=0 

3 fori=lton 

4 q=g, Til) 

5 ifg==m 

6 imprimir “Padrão ocorre com deslocamento” i -m 


Pela estrutura de laço simples de Fintte- Automaton-Matcher é fácil ver que seu tempo de correspondência para 
uma cadeia de texto de comprimento n é Q(n). Porém, esse tempo de correspondência não inclui o tempo de pré- 
processamento necessário para calcular a função de transição d. Abordaremos esse problema mais adiante, depois de 
provar que o procedimento Finite- Automaton-Matcher funciona corretamente. 

Considere como o autômato funciona em um texto de entrada T[1 .. n]. Provaremos que o autômato está no 
estado s(T;) depois de examinar o caractere Ti]. Visto que s(T;) = m se e somente se PT. a máquina está no estado 
aceitador m se e somente se acabou de examinar P. Para provar esse resultado, fazemos uso dos dois lemas a seguir 
sobre a função sufixo s. 


Lema 32.2 (Desigualdade da função sufixo) 


Para qualquer cadeia x e caractere a, temos s(xa) < s(x) + 1. 


Prova Referimdo-nos à Figura 32.8, seja 7 = s(xa). Se 7 = 0, então a conclusão s(xa) = r < s(x) + 1 é satisfeita 
trivialmente, pela não negatividade de s(x). Agora, suponha que 7 > 0. Então, P, xa, pela definição de s. Assim, P,- 1 


x, descartando o a do final de P e do final de xa. Portanto, r — 1 < s(x), já que s(x) é o maior k tal que P, xe 
s(xa)=r<s(x)+1. 


Lema 32.3 (Lema de recursão da função sufixo) 


Para qualquer cadeia x e caractere a, se q = s(x), então s(xa) = s(P, a). 


Prova Pela definição de s, temos P, x. Como mostra a Figura 32.9, temos também Pa xa. Se fizermos r = s(xa), 
então P, xae, pelo Lema 32.2, r <q + 1. Assim, temos |P|=r<qg + | =|Pal. Visto que Pa xa,P, xaelP| 
< |Pçal, o Lema 32.1 implica que P, Pa. Portanto, r <s (Pa), isto é, s(xa) < s(P,a). Mas temos também s(P a) < 
s(xa) visto que Pa xa. Assim, s(xa) = s (Pa). 


Agora, estamos prontos para provar nosso teorema principal que caracteriza o comportamento de um autômato de 
correspondência de cadeias para um texto de entrada dado. Como observamos antes, esse teorema mostra que o 
autômato está simplesmente controlando, em cada etapa, o prefixo mais longo do padrão que é um sufixo do que foi 
lido até o momento. Em outras palavras, o autômato mantém o invariante (32.5). 


Teorema 32.4 


Se fé a função estado final de um autômato de correspondência de cadeias para um dado padrão P e T[1.. n] é um 
texto de entrada para o autômato, então 


HT) = o(T) 


parai=0,1,...,n. 


Prova A prova é por indução em i. Para i = 0, o teorema é trivialmente verdadeiro, já que T; = E. Portanto, f(T5) = O = 
(To). 


Agora, supomos que f(T;) = s(T,) e provamos que f(T.+1) = s(T'+1). Representando f(T;) por q e T[i+ 1] por a, temos 


HT) = Ta) (pelas definições de T, ea) 
= ô(P(T),a) (pela definição de &) 
= ô(q,4) (pela definição de q) 
= o(P a) (pela definição (32.4) de 6) 
=o(Ta) (pelo Lema 32.3 e por indução) 


(pela definição de T;,,). 


Pelo Teorema 32.4, se a máquina entra no estado q na linha 4, então q é o maior valor talgue P, T,. Assim, temos q 
= m na linha 5 se e somente se a máquina acabou de examinar uma ocorrência do padrão P. Concluímos que Finite- 
Automaton-Matcher funciona corretamente. 


Cálculo da função transição 


O procedimento a seguir calcula a função transição d por um padrão P[1 .. m] dado. 


ComPUTE-TRANSITION-FUNCTION(P, 5) 
1 m =P. comprimento 
2 forg=Otom 


5 for cada caracterea € >) 
4 k=min(m+1,9+2) 
55) repeat 

6 k=k-—1 

/ until P Pa 

8 ô(g,a) =k 

9 return ô 


Esse procedimento calcula d(g, a) de maneira direta, de acordo com sua definição na equação (32.4). Os laços 
aninhados que começam nas linhas 2 e 3 consideram todos os estados q e todos os caracteres a, e as linhas 4-8 
definem d(g, a) como o maior k talque P, Pa. O código começa com o maior valor concebível de k, que é min(m, 
q + 1). Então, diminui k até P, Pça, o que a certa altura deve ocorrer, visto que P, = é um sufixo de toda cadeia. 

O tempo de execução de Compute- Transition- Function é O(m., |S|) porque os laços exteriores contribuem com um 
fator de m|S|, o laço repeat interno pode ser executado no máximo m + 1 vezes, eo teste P, Pa na linha 7 pode 
exigir a comparação de até m caracteres. Existem procedimentos muito mais rápidos; se usarmos algumas informações 
sobre o padrão P inteligentemente calculadas (veja o Exercício 32.4-8) podemos melhorar até O(m |S|) o tempo 
requerido para calcular d a partir de P. Com esse procedimento melhorado para calcular d, podemos encontrar todas 
as ocorrências de um padrão de comprimento m em um texto de comprimento n que utilizou um alfabeto | no tempo 
de pré-processamento O(m |S|) e tempo de correspondência Q(n). 


Exercícios 


32.3-1 Construa o autômato de correspondência de cadeias para o padrão P = aabab e ilustre como ele funciona na 
cadeia de texto 7 = aaababaabaababaab. 


32.3-2 Desenhe um diagrama de transição de estados para um autômato de correspondência de cadeias para o 
padrão ababbabbababbababbabb no alfabeto S = (a,b). 


32.3-3 Dizemos que um padrão P é sem sobreposições se P,  P, implica k = 0 ou k=q. Descreva o diagrama de 
transição de estados do autômato de correspondência de cadeias para um padrão sem sobreposições. 


32.3-4 * Dados dois padrões P e P”, descreva como construir um autômato finito que determina todas as 
ocorrências de quaisquer desses padrões. Procure minimizar o número de estados em seu autômato. 


32.3-5 Dado um padrão P que contém caracteres lacuna (veja o Exercício 32.1-4), mostre como construir um 
autômato finito que possa encontrar uma ocorrência de P em um texto 7 no tempo de correspondência O(n), 
onde n = |7]. 


32.4 x Oarcorirmo KnurH-MorrIs-PRATT 


Agora, apresentamos um algoritmo de correspondência de cadeias de tempo linear criado por Knuth, Morris e 
Pratt. Esse algoritmo evita totalmente o cálculo da função transição d, e seu tempo de correspondência é Q(n) usando 
apenas uma função auxiliar p, que calculamos antecipadamente a partir do padrão no tempo Q(m) e armazenamos em 
um arranjo p[1 ..m]. O arranjo p nos permite calcular a função de transição d eficientemente (em um sentido 
amortizado) durante a execução conforme necessário. Em termos aproximados, para qualquer estado q = 0, 1,.., me 
qualquer caractere a E S, o valor p[q] contém as mformações de que precisamos para calcular d(g, a), mas que não 
dependem de a. Visto que o arranjo p tem apenas m entradas enquanto d tem Q(m |S|) entradas, economizamos um 
fator de |S] no tempo de pré-processamento calculando p em vez de d. 


A função prefixo para um padrão 


A função prefixo p para um padrão captura conhecimento sobre as corrrespondências entre o padrão e 
deslocamentos dele próprio. Podemos aproveitar essa informação para evitar testes de deslocamentos inúteis no 
algoritmo ingênuo de correspondência de padrões e para evitar o cálculo antecipado da função de transição completa d 
para um autômato de correspondência de cadeias. 

Considere a operação do algoritmo ingênuo. A Figura 32.10(a) mostra um determinado deslocamento s de um 
gabarito que contém o padrão P = ababaca quando comparado com um texto 7. Para esse exemplo, q = 5 dos 
caracteres corresponderam aos do texto, mas o sexto caractere não correspondeu ao caractere do texto. A informação 
de que q caracteres do padrão corresponderam aos do texto determina os caracteres de texto correspondentes. Saber 
quais são esses q caracteres de texto nos permite determinar imediatamente que certos deslocamentos são não válidos. 
No exemplo da figura, o deslocamento s + 1 é necessariamente não válido, já que o primeiro caractere do padrão, (a), 
estaria alinhado com um caractere de texto que sabemos que não corresponde ao primeiro caractere do padrão, mas 
corresponde ao segundo caractere do padrão, (b). Contudo, o deslocamento s' = .s + 2 mostrado na parte (b) da figura 
alinha os três primeiros caracteres do padrão com três caracteres de texto que devem necessariamente ser 
correspondentes. Em geral, é útil saber a resposta para a seguinte pergunta: 

Dado que caracteres do padrão P[1 .. q] correspondem a caracteres de texto T[s + 1... s + q], qual é o menor 
deslocamento s' > s tal que, para algum k < q, 


PU.k=Tis'+1..s+k], (32.6) 
onde s'+k=s+qg? 


Em outras palavras, sabendo que P,  T,+ 9, queremos o prefixo próprio mais longo P, de P, que é também um sufixo 
de T.+q. (Visto que s'+ k = s + q, se tivermos s e q, encontrar o menor deslocamento s' equivale a encontrar o maior 
comprimento de prefixo k.) Somamos a diferença q — k nos comprimentos desses prefixos de P ao deslocamento s” 
para chegarmos ao nosso novo deslocamento s”, de modo que s' = .s + (g — k) . No melhor caso, k = 0, de modo que s' 
= s + q, e descartamos imediatamente os deslocamentos s + 1, s + 2,...,s + q — 1. Em qualquer caso, no novo 
deslocamento s, não precisamos comparar os k primeiros caracteres de P com os caracteres correspondentes de T, 
visto que a equação (32.6) garante que eles correspondem. 


| E | 


(c) 


Figura 32.10 A função prefixo p. (a) O padrão P = ababaca se alinha com um texto T de modo que os primeiros q = 5 caracteres são 
correspondentes. Os caracteres correspondentes, sombreados, estão ligados por linhas verticais. (b) Usando somente o nosso 
conhecimento dos cinco caracteres correspondentes, podemos deduzir que um deslocamento de s + 1 é não válido, mas que um 
deslocamento de s'=s + 2 é compatível com tudo o que sabemos sobre o texto, e portanto é potencialmente válido. (c) Podemos calcular 
antecipadamente informações úteis para tais deduções comparando o padrão com ele próprio. Aqui, vemos que o prefixo mais longo de 
P que também é umsufixo de P, é P, . Representamos essa informação calculada antecipadamente no arranjo p, de modo que p[5] = 3. 
Dado que q caracteres são correspondentes no deslocamento s, o próximo deslocamento potencialmente válido éems'=s+(g — p [g]), 
como mostra a parte (b). 


Podemos calcular antecipadamente a informação comparando o padrão com si mesmo, como demonstra a Figura 
32.10(c). Visto que T[s' + 1....s”+ k] é parte da porção conhecida do texto, é um sufixo da cadeia P,. Portanto, 
podemos interpretar que a equação (32.6) solicita o maior k <g talgue P, P,. Então, o novo deslocamento s' = .s + 
(q — k) é o próximo deslocamento potencialmente válido. Veremos que é conveniente armazenar, para cada valor de q, 
o número k de caracteres correspondentes no novo deslocamento s”, em vez de armazenar, digamos, s' — s. 

Formalizamos a informação que pré-computamos da seguinte maneira. Dado um padrão P[1..m], a função 
prefixo para o padrão P é a função p: (1,2, ..,mj > 10,1,..,m— 1) tal que 


mlgl=maxtk:k<geP IPs. 


Isto é, p[g] é o comprimento do prefixo mais longo de P que é um sufixo próprio de P,. A Figura 32.11(a) dá a função 
prefixo completa p para o padrão ababaca. 

O pseudocódigo a seguir dá o algoritmo de correspondência Knuth-Morris-Pratt como o procedimento KMp- 
Matcher. Em sua maior parte, o procedimento decorre de Finite- Automaton-Matcher, como veremos. KMp-Matcher 
chama o procedimento auxiliar Compute-prefix- Function para calcular p. 


P; [alb a 

Ps aca x(5] = 3 

P, abaca nB3)=1 

Po " | ababaca r[l]J=0 
(a) (b) 


Figura 32.11 Ilustração do Lema 32.5 para o padrão P ababaca e q =5. (a) A função p para o padrão dado. Visto que p[5]=3,p[3]=1 e 
pl] = 0, iterando p obtemos p*[5] = (3,1, 03. (b) Deslizamos o gabarito que contém padrão P para a direita e observamos quando 
algum prefixo Pr de P corresponde a algum sufixo próprio de P, ; conseguimos correspondências quando k =3,1 e 0. Na figura, a 
primeira linha dá P, e a linha vertical pontilhada é desenhada logo após P,. Linhas sucessivas mostramtodos os deslocamentos de P 
que resultamna concordância entre algum prefixo P, de P e algum sufixo de P, . Caracteres sucessivamente correspondentes são 
sombreados. Linhas verticais ligam caracteres correspondentes alinhados. Assim, fk:k<5e Pk Pst = (3, 1,0%. O Lema 32.5 afirma que 
p*lgl=(k:k<gePr Ps) paratodo q. 


KMP-MarcHER(T, P) 
1 n=Tcomprimento 
2 m = Pcomprimento 
3 7 = CompuTE-PrEFIXx-FUNCTION(P) 


4 q=0 /! número de caracteres correspondentes 
5 fori=lton /l varre o texto da esquerda para a direita 
6 while q > 0e Plg + 1] = Ti] 
j q = 7[q] /| próximo caractere não é correspondente 
8 if Plg + 1] == T[i] 
9 q=q+1 /| próximo caractere é correspondente 

10 ifg==m /! P inteiro é correspondente? 

1 imprimir “Padrão ocorre com deslocamento” i —- m 

12 q = 7[q] /! procurar próxima correspondência 


CompuTE-PRrEFIX-FUNCTION. (P) 
1 m=pP. comprimento 
2 seja 7 [1..m] um novo arranjo 


3 m[1]=0 
4 k=0 
5 forg=2tom 
6 while k > 0 e P[k + 1] = P[q] 
7 k = mlk] 
8 if P[k + 1] == Plq) 
9 k=k+1 
10 tlq] = k 
11 retum 7 


Esses dois procedimentos têm muito em comum porque ambos comparam uma cadeia com o padrão P: Kmp- 
Matcher compara o texto 7 com P, e Compute-prefix-Function compara P com ele mesmo. 

Começamos com uma análise dos tempos de execução desses procedimentos. Provar que os procedimentos são 
corretos será mais complicado. 


Análise do tempo de execução 


O tempo de execução de Compute-prefix-Function é Q(m), o que mostramos usando o método agregado de 
análise amortizada (veja a Seção 17.1). A única parte complicada é mostrar que o laço while das linhas 6-7 é 
executado O(m) vezes no total. Mostraremos que ele faz no máximo m — 1 iterações. Começamos com algumas 
observações sobre k. A primeira é que a linha 4 micia k em 0, e a única maneira de k aumentar é pela operação de 
incremento na linha 9, que é executada no máximo uma vez por iteração do laço for das linhas 5-10. Assim, o aumento 
total total em k é no máximo m — 1. A segunda é que, visto que k < q quando entra no laço for e cada iteração do laço 
incrementa q, temos sempre k < q. Portanto, as atribuições nas linhas 3 e 10 garantem que p[g] < q para todo g = 1, 
2,..., Mm, O que significa que cada iteração do laço while diminui k. A terceira é que k nunca se torna negativo. Juntando 
esses fatos, vemos que a redução total em k resultante do laço while é limitada por cima pelo aumento total de k em 
todas as iterações do laço for, que é m — 1. Assim, o laço while itera no máximo m — 1 vezes no todo, e Compute- 
prefixfunction é executado no tempo Q(m). 

O Exercício 32.4-4 pede que você mostre, por uma análise agregada semelhante, que o tempo de correspondência 
de KMp-Matcher é Q(n). 


Comparado com Finite- Automaton-Matcher, usando p em vez de d, reduzimos o tempo de pré-processamento do 
padrão de O(m |S|) para Q(m), mantendo o tempo real de correspondência limitado por Q(n). 


Correção do cálculo da função prefixo 


Veremos, um pouco mais adiante, que a função prefixo p nos ajuda a simular a função transição d em um autômato 
de correspondência de cadeias. Porém, em primeiro lugar precisamos provar que o procedimento Compute-prefix- 
Function realmente calcula a função prefixo corretamente. Para tal, precisaremos encontrar todos os prefixos P, que 
são sufixos próprios de um prefixo P,. dado. O valor de p[q] nos dá tal prefixo mais longo, mas o lema apresentado a 
seguir, ilustrado na Figura 32.11, mostra que iterando a finção prefixo p, podemos de fato enumerar todos os prefixos 
P, que são sufixos próprios de P,. Seja 


Lg] = mg] =, mg] =, mg], ..., mºlg]), 


onde p(D[q] é definida em termos de iteração funcional, de modo que p(9[g] = q e pO[g] =p(-D[g]] para i > 1 e onde a 
sequência em p*[q] para quando p(9[q] = 0. 


Lema 32.5 (Lema da iteração da função prefixo) 


Seja P um padrão de comprimento m com função prefixo p. Então, para q = 1, 2, ...,m, temos p*[g]= fk:k<ge P, 
Pa. 
q 


Prova Primeiro provamos que p[g] E tk:k<geP, Pg ou, que é equivalente, 
i E m*[q] implica P, O P. (32.7) 


Sei € p*[q], então i = p()[g] para algum u > 0. Provamos a equação (32.7) por indução em u. Para u = 1, 
temos i = p[g], e a afirmação decorre, já que i<g e Poly] P, pela definição de p. Usando as relações p[i] < i e Pplil 
P,e a transitividade de < e estabelece a afirmação para todo iemp*[g]. Portanto, p*[g] E fk:k<geP, Ps). 


Agora provamos que tk:k<geP, Pç, € p*[g] por contradição. Suponha, ao contrário, que o conjunto tk : k < 
geP, Py-p*lg] é não vazio e seja j o maior número no conjunto. Como p[g] é o maior valor em tk :k <g e P, 
Py e plq] & p*lg], devemos ter j < p[g] e, assim, denotamos por ;' o menor inteiro em p*[g] que é maior que ;. 
(Podemos escolher ; = p[q], se nenhum outro número em p*[g] é maior que j.) Temos P, P porque; &€ tk:k<ge 
P. Pjepor;'ep*[g]e a equação (32.7) temos P, P,. Assm, P, P; pelo Lema 32.1 e j é o maior valor 
menor que j' com essa propriedade. Portanto, devemos ter p[/] =; e, visto que j' E p*[q), devemos ter também; E 
p*[g!. Essa contradição prova o lema. 


O algoritmo Compute-prefix-Function calcula p[q], em ordem, para q = 1, 2,..., m. Fazer p[1] = O na linha 3 de 
Compute-prefix-Function certamente é correto, já que p[q] < q para todo q. Usaremos o lema apresentado a seguir e 
seu corolário para provar que Compute-prefix-Function calcula p[9] corretamente para q > 1. 


Lema 32.6 


Seja P um padrão de comprimento m e seja p a função prefixo para P. Para g = 1,2,...,m, se p[q] > 0, então pq] — 
1 e p*g-1]. 


Prova Ser=plg]>0,entãor<geP, Poyportanto,r-1<qg-leP,-1 P,-1 (descartando o último caractere 
de P,e P,), o que podemos fazer porque r > 0). Portanto, pelo Lema 32.5, r — 1 & r* [g — 1]. Assim, temos p[g] — 1 
ape | pe gl], 


Para q = 2,3,...,m, defina o subconjunto E — | € p*[g — 1] por 


E «il = (ke mlg-1]: P[k + 1] = Plg]) 
= lk:k<g-leP o asd e P[k + 1] = P[q]) (pelo Lema 32.5) 
= fekeg-leP,,, OP) 
O conjunto E, - ! consiste nos valores k < q — 1 para os quais P, P,-1 e para os quais, como P[k + 1] = Plg], 
temos P,+1  P. Assim, E, - 1 consiste nesses valores k & p*[g — 1] tais que podemos estender P, a P, + 1 e obter 
um sufixo próprio de P,. 


Corolário 32.7 
Seja P um padrão de comprimento m e seja p a função prefixo para P. Para g = 2,3,...,m, 


set ,=% 
lg] = ' 


1 + maxtk EL al seE 9 


q— 
Prova Se E, - 1 é vazio, não existe nenhum k & p*[g — 1] (incluindo k = 0) para o qual possamos estender P, a P, + 1 
e obter um sufixo próprio de P,. Portanto, p[g] = 0. 

Se E, - ! é não vazio, então para cada k & E -ltemosk+1I<geP+1 PP. Portanto, pela definição de 
plg], temos 


tlq] > 1 + max |k e Ea ad: (32.8) 


Observe que plq] > 0. Seja r = p[g] — 1, de modo que r + 1 = plg] e, portanto, P, + 1 P. Visto quer+1>0, 
temos P[r + 1 = Pl[g]. Além disso, pelo Lema 32.6, temos r & p*[g — 1]. Portanto, r & E, - 1 e, assim, r < max tk 
& E,-!) ou, o que é equivalente, 


mlq] < 1 + max (k € E. RE (32.9) 
Combinando as equações (32.8) e (32.9), conclui-se a prova. 


Agora, terminamos a prova de que Compute-prefix- Function calcula p corretamente. No procedimento Compute- 
prefix-Function, no início de cada iteração do laço for das linhas 5-10, temos que k = plg — 1]. Essa condição é 
imposta pelas linhas 3 e 4 quando entramos no laço pela primeira vez e permanece verdadeira em cada iteração 
sucessiva, por causa da linha 10. As linhas 6-9 ajustam k de modo que ele se torna o valor correto de plq]. O laço 
while nas linhas 6-7 pesquisa todos os valores k € p*[g — 1] até encontrar um para o qual P[k + 1] = P[g]; nesse 
ponto, k é o maior valor no conjunto £, - 1, de modo que, pelo Corolário 32.7, podemos definir p[g] como k + 1. Se o 
laço while não puder encontrar un k & p*[g — 1] tal que P[k + 1] = P[g], então k é iguala O na linha 8. Se P[1] = 
Plg], então devemos definir k e p[9] como 1; caso contrário, devemos deixar k como está e definir p[q] como 0. As 
linhas 8-10 definem k e p[g] corretamente em qualquer caso. Isso conclui nossa prova da correção de Compute- 
prefix-Function. 


Correção do algoritmo Knuth-Morris-Pratt 


Podemos considerar o procedimento KMp-Matcher como uma versão reimplementada do procedimento Finite- 
Automaton-Matcher, mas usando a função prefixo p para calcular transições de estado. Especificamente, provaremos 


que na i-ésima iteração dos laços for de ambos, KMp-Matcher e Finite- Automaton-Matcher, o estado q tem o mesmo 
valor quando testamos a igualdade com m (na linha 10 em KMp-matcher e na linha 5 em Finite- Automaton-Matcher). 
Uma vez demonstrado que KMp-Matchersimula o comportamento de Finite- Automaton-matcher, a correção de 
KMp-Matcher decorre da correção de Finite- Automaton-Matcher (embora vejamos mais adiante por que a linha 12 
em K Mp-Matcher é necessária). 

Antes de provarmos formalmente que Kmp-matcher simula corretamente Finite- Automaton- Matcher, vamos gastar 
um instante para entender como a finção prefixo p substitui a função transição d. Lembre-se de que, quando um 
autômato de correspondência de cadeias está no estado q e varre um caractere a = Ti], ele passa para um novo 
estado d(g, a). If a = P[g + 1], de modo que a continua a corresponder ao padrão, então d(g, a) = q + 1. Caso 
contrário, a £ P[g + 1), de modo que a não continua a corresponder ao padrão, e O < d(g, a) < q. No primeiro caso, 
quando a continua a corresponder, KMp-Matcher passa para o estado q + 1 sem referenciar a função p: o laço while 
na linha 6 resulta falso na primeira vez, o teste na 8 resulta verdadeiro e a linha 9 incrementa q. 

A função p entra em ação quando o caractere a não continua a corresponder ao padrão, de modo que o novo 
estado d(g, a) é q ou está à esquerda de q ao longo da espinha dorsal do autômato. O laço while das linhas 6-7 em 
K Mp-Matcher itera pelos estados em p*[q], e para ou quando chega a um estado, digamos q”, tal que a corresponde a 
Plg' + 1] ou g' já tenha percorrida todo o caminho descendente até O. Se a corresponde a P[g' + 1], então a linha 9 
define o novo estado como g' + 1, que deve ser igual a d(q, a) para que a simulação funcione corretamente. Em outras 
palavras, o novo estado deve ser ou o estado O ou um a mais do que algum estado em p*[q]. 

Vamos examinar as Figuras 32.7 e 32.11, onde os exemplos são para o padrão P = ababaca. Suponha que o 
autômato esteja no estado q = 5; os estados em p*[5] são, em ordem descendente, 3, 1 e 0. Se o próximo caractere 
verificado é c, então é fácil ver que o autômato passa para o estado d(5, c) = 6 em Finite- Automaton-Matcher e 
também em KMp-Matcher. Agora suponha que o próximo caractere verificado seja b, de modo que o autômato deve 
passar para o estado d(5, b) = 4. O laço while em KMp-Matcher sai após executar a linha 7 uma vez e chega ao 
estado q' = p[5] = 3. Visto que P[g' + 1] = P(4) = b, o teste na linha 8 revela-se verdadeiro e KMp-Matcher passa 
para novo estado q' + 1 = 4 = d(5, b). Finalmente, suponha que o próximo caractere escaneado seja a, de modo que o 
autômato deve passar para o estado d(5, a) = 1. Nas três primeiras vezes em que o teste na linha 6 é executado ele dá 
verdadeiro. Na primeira vez, verificamos que P[6] = c a, e Kmp-Matcher passa para o estado p[5] = 3 (o primeiro 
estado em p*[5]). Na segunda vez, verificamos que P[4] = b % a e passamos para o estado p[3] = 1 (o segundo estado 
em p*[5]). Na terceira vez, verificamos que P[2] = b £ a e passamos para o estado p[1] = O (o último estado em p* 
[5]). O laço while sai uma vez e chega ao estado qg' = O. Agora, a linha 8 descobre que P[g' + 1]=P[l]=a,e a linha 
9 passa o autômato para o novo estado g' + 1=1=d(5,a). 

Assim, nossa intuição é que Kmp-Matcher itera em todos os estados em p*[9] em ordem decrescente, parando 
em algum q' e então possivelmente passando para o estado q' + 1. Embora isso possa parecer muito trabalho só para 
simular o cálculo de d[q, a], não esqueça que assintoticamente KMp-Matcher não é mais lento que Finite- Automaton- 
Matcher. 

Agora estamos prontos para provar formalmente a correção do algoritmo Knuth-Morris-Pratt. Pelo Teorema 32.4, 
temos que q = s(T,) após cada vez que executarmos a linha 4 de Finite- Automaton-Matcher. Portanto, basta mostrar 
que a mesma propriedade é válida em relação ao laço for em KMP-MATCHER. A prova é realizada por adução em 
relação ao número de iterações do laço. Inicialmente, ambos os procedimentos definem q como O quando entram em 
seus respectivos laços for pela primeira vez. Considere a iteração i do laço for laço em Kmp-matcher, e seja q” o 
estado no início dessa iteração do laço. Pela hipótese indutiva, temos q' = s(T; ,). Precisamos mostrar que q' = s(T;) na 
linha 10. (Novamente, trataremos a linha 12 separadamente.) 

Quando consideramos o caractere T[i], o prefixo mais longo de P que é um sufixo de T, é Py +1 (se Plg'+ 1] = 
T [:]) ou algum prefixo (não necessariamente próprio, e possivelmente vazio) de P,, . Consideramos separadamente os 
três casos nos quais s(T) = 0, s(T)=q'+land0O<s(T)<q. 

* Ses(T)=0, então P= é o único prefixo de P que é um sufixo de T;. O laço while das linhas 6-7 itera pelos 
valores em p*[q'], mas, embora P, T-para todo q E p*[q'], o laço nunca encontra um q tal que Plg + 1] = 


T[i]. O laço termina quando q chega a O e, é claro, a linha 9 não é executada. Portanto, q = O na linha 10, de 
modo que q = s(T;). 

* Ses(T)=qg'+ 1, então Plg' + 1] = Til, e o teste do laço while na linha 6 falha inteiramente na primeira vez. A 
linha 9 é executada, incrementando q de modo que, depois, temos g = qg'+ 1 =s(T). 

* Se0<s(T)<q, então o laço while das linhas 6-7 itera no mínimo uma vez, verificando em ordem decrescente 
cada valor q E p*[q' até parar em algum g < q". 


Assim, P, é o prefixo mais longo de P,. para o qual P[g + 1] = Tli], de modo que, quando o laço while termina, q 
+ 1=s(PTi])). Visto que q' = s(T, - 1), o Lema 32.3 implica que s(T, - 1T[i]) = s(P,, T[i]) Assim, temos 


q+1 = o(P Ti) 
= o(T, Ti) 
= gil) 


quando o laço while termina. Após a linha 9 incrementar q, temos q = s(T,). 

A linha 12 é necessária em KMp-Matcher porque, caso contrário, poderíamos referenciar P[m + 1] na linha 6 
após encontrar uma ocorrência de P. (O argumento de que q = s(T; - 1) na próxima execução da linha 6 permanece 
válido pela sugestão dada pelo Exercício 32.4-8: d(m, a) = d(r,[m], a) ou, o que é equivalente, s(Pa) = s (Pplmla) para 
qualquer a € 3.) O argumento restante para a correção do algoritmo de Knuth-Morris-Pratt decorre da correção 
deF'inite- Automaton- Matcher, já que mostramos que KMp-Matcher simula o comportamento de Finite- automaton- 


Matcher. 


Exercícios 


32.4-1 


32.4-2 


32.4-3 


32.4-4 


32.4-5 


32.4-6 


Calcule a finção prefixo p para o padrão ababbabbabbababbabb. 


Dê um limite superior para o tamanho de p*[q] em função de q. Dê um exemplo para mostrar que seu limite é 
Justo. 


Explique como determinar as ocorrências do padrão P no texto 7 examinando a função p em busca da cadeia 
PT (a cadeia de comprimento m + n que é a concatenação de P e 7). 


Use uma análise agregada para mostrar que o tempo de execução de Kmp-matcher é Q(n). 
Use uma função de potencial para mostrar que o tempo de execução de KMp-Ma- tcher é Q(n). 


Mostre como melhorar K Mp-Matcher substituindo a ocorrência de p na linha 7 (mas não na linha 12) por p”, 
onde p” é definido recursivamente para q = 1,2, ...,m pela equação 


O se rlg]= O 
mIgl=;mInlg] serig)=0ePlm[g]+1]=Plg+1] 
lg] se tlq] = 0e P[m[g]+ 1] = Plg+1] 


Explique por que o algoritmo modificado é correto e em que sentido essa modificação constitui uma 
otimização. 


32.4-7 Dê um algoritmo de tempo linear para determinar se um texto T é uma rotação cíclica de outra cadeia 7”. Por 
exemplo, as cadeias arc e car são rotações cíclicas uma da outra. 


32.4-8 * Dê umalgoritmo de tempo O(m|)]) para calcular a função transição d para o autômato de correspondência 
de cadeias relativo a um padrão P dado. (Sugestão: Prove que d(g, a) = d(mlg], a) seg = m ou Plg + 1] £ 


a.) 


Problemas 


32-1 Correspondência de cadeias baseada em fatores de repetição 


Seja y; à concatenação da cadeia y com ela própria i vezes. Por exemplo, (ab)3 = ababab. Dizemos que uma 
cadeia x E S* tem fator de repetição r se x = y, para alguma cadeia y E S* e algum y > 0. Seja (x) o 
maior v tal que x tenha fator de repetição r-. 


a. Dê um algoritmo eficiente que tome como entrada um padrão P[1 .. m] e calcule o valor (P;) para i = 1, 
2, ...,m. Qual é o tempo de execução de seu algoritmo? 


b. Para qualquer padrão P[1 .. m], seja *(P) definido como max<<,(P)). Prove que, se o padrão P for 
escolhido aleatoriamente do conjunto de todos as cadeias binárias de comprimento m, então o valor 
esperado de *(P) é O(1). 

c. Demonstre que o algoritmo de correspondência de cadeias a seguir encontra corretamente todas as 


ocorrências do padrão P em um texto TT1 .. n] no tempo O(*(P)n + m). 


REPETITION-MATCHER(P, T) 
1 m = Pcomprimento 
2 n = Tcomprimento 


3k=1+p*P) 
4 q=0 
9 8=0 


6 whiles<n-m 
x É Tis + q+1]=Plg+1] 


8 q=q+1 

9 q ==m 

10 imprimir “Padrão ocorre com deslocamento” s 
11 ifg==mouTis+qg+1]=Plg+1] 

12 s=s+max(1,l9/kl) 

13 q=0 


Esse algoritmo foi desenvolvido por Galil e Seiferas. Estendendo bastante essas ideias, eles obtêm um 
algoritmo de correspondência de cadeias de tempo linear que utiliza somente o espaço de armazenamento 
O(1) além do que é necessário para P e T. 


NorTas DO CAPÍTULO 


A relação entre correspondência de cadeias e a teoria de autômatos finitos é discutida por Aho, Hopcroft e Ullman 
[5]. O algoritmo Knuth-Morris-Pratt [214] foi criado independentemente por Knuth e Pratt e por Morris; eles 
publicaram seu trabalho em conjunto. Reingold, Urban e Gries [294] apresentam um tratamento alternativo para o 
algoritmo de Kruth-Morris-Pratt. O algoritmo Rabin-Karp foi proposto por Karp e Rabin [201]. Galile Seiferas [126] 
apresentam um interessante algoritmo determmístico de tempo linear para correspondência de cadeias que utiliza 
somente o espaço O(1) além do que é exigido para armazenar o padrão e o texto. 


1 Escrevemos Q(n — m + 1) em vez de Q(n — m) porque s adota n — m + 1 valores diferentes. O “+” é significativo em um sentido 
assintótico porque, quando m =, calcular o valor isolado ts demora tempo Q(1), e não tempo Q(0). 


Ê 3 (GEOMETRIA COMPUTACIONAL 


Geometria computacional é o ramo da ciência da computação que estuda algoritmos para resolver problemas 
geométricos. Na engenharia e na matemática modernas, a geometria computacional tem aplicações em áreas tão 
diversas quanto gráficos por computador, robótica, projeto com VLSI, projeto com o auxílio do computador, 
modelagem molecular, metalurgia, manufatura, padrões têxteis, silvicultura e estatística. A entrada para um problema de 
geometria computacional normalmente é uma descrição de um conjunto de objetos geométricos, como um conjunto de 
pontos, um conjunto de segmentos de reta ou os vértices de um polígono em ordem anti-horária. A saída, muitas vezes, 
é uma resposta a uma consulta sobre os objetos como, por exemplo, se quaisquer das retas se intercepta ou, talvez, um 
novo objeto geométrico, como a envoltória convexa (o menor polígono convexo envolvente) do conjunto de pontos. 

Neste capítulo, examinamos alguns algoritmos de geometria computacional em duas dimensões, isto é, no plano. 
Representamos cada objeto de entrada por um conjunto de pontos (p,, p,, Ps, ... +, onde cada p = (x, y)e x,y, E. 
Por exemplo, representamos um polígono P de n vértices por uma sequência (p,, D,, PD», -.. P, - !) de seus vértices na 
ordem em que aparecem no contorno de P. A geometria computacional também pode ser aplicada a três dimensões e 
até a espaços com um número mais alto de dimensões, mas tais problemas e suas soluções podem ser muito dificeis de 
visualizar. Entretanto, ainda que em duas dimensões, podemos ver uma boa amostra de técnicas de geometria 
computacional. 

A Seção 33.1 mostra como responder eficientemente e com precisão a perguntas básicas sobre segmentos de reta: 
se um segmento está em sentido horário ou em sentido anti-horário em relação a um outro com o qual compartilha uma 
extremidade, para que lado viramos quando percorremos dois segmentos de reta adjacentes e se dois segmentos de 
reta se interceptam. A Seção 33.2 apresenta uma técnica denominada “varredura” que usamos para desenvolver um 
algoritmo de tempo O(n lg n) para determinar se um conjunto de n segmentos de reta contém alguma interseção. A 
Seção 33.3 apresenta dois algoritmos de “varredura rotacional” que calculam a envoltória convexa (o menor polígono 
convexo envolvente) de um conjunto de n pontos: a varredura de Graham, que é executada no tempo O(n lg n), e a 
marcha de Jarvis, que demora o tempo O(nh), onde h é o número de vértices da envoltória convexa. Finalmente, a 
Seção 33.4 dá um algoritmo de divisão e conquista de tempo O(n lg n) para encontrar o par de pontos mais próximos 
em um conjunto de n pontos no plano. 


33.1 PROPRIEDADES DE SEGMENTOS DE RETA 


Vários algoritmos da geometria computacional neste capítulo exigem respostas a perguntas sobre as propriedades 
dos segmentos de reta. Uma combinação convexa de dois pontos distintos p, = (x,, Y,)) e p, = (x,, Y,) é qualquer 
ponto p, = (x,, Y;) tal que, para algum a na faixa O <a < 1, temosx,=o,+(1-ox,ey=a, +(1-— a). 
Escrevemos também que p; = ap, + (1 — a)p,. Intuitivamente, p, é qualquer ponto que está sobre a reta que passa por 
Pp, € Pp, e que está sobre ou entre p, e p, na reta. Dados dois pontos distintos p, e p,, o segmento de reta p,p,é O 
conjunto de combinações convexas de p, e p,. Denominamos p, e p, extremidades do segmento p, p,. Às vezes, a 


ordem de p, e p, é importante, e falamos do segmento dirigido p, p,. Sep, é a origem (0, 0), então podemos tratar o 
segmento dirigido p, p, como o vetor p.. 

Nesta seção, exploraremos as seguintes questões: 
1. Dados dois segmentos dirigidos popie pop», pop: está em sentido horário em relação a 

Po» considerando sua extremidade comum p,? 

2. Dados dois segmentos de reta pop: e p: p>, se percorrermos pop: e depois p:p>, fazemos uma curva para a 
esquerda no ponto p1? 
3. Os segmentos de reta p;p>€e p:p:se interceptam? Não há nenhuma restrição nos pontos dados. 

Podemos responder a cada pergunta no tempo O(1), o que não deve ser nenhuma surpresa, já que o tamanho da 
entrada de cada pergunta é O(1). Além disso, nossos métodos usarão apenas adições, subtrações, multiplicações e 
comparações. Não precisamos nem da divisão nem de funções trigonométricas, já que ambas podem ser dispendiosas 
em termos computacionais e propensas a problemas com erros de arredondamento. Por exemplo, o método “direto” de 
determinar se dois segmentos se interceptam — calcular a equação da reta da forma y = mx + b para cada segmento 
(m é a inclinação e b é a interseção com o eixo y), determinar o ponto de interseção das retas e verificar se esse ponto 
está em ambos os segmentos — utiliza divisão para determinar o ponto de interseção. Quando os segmentos são quase 
paralelos, esse método é muito sensível à precisão da operação de divisão em computadores reais. O método desta 
seção, que evita divisão, é muito mais preciso. 


Produtos cruzados 


Calcular produtos cruzados está no múcleo de nossos métodos de segmentos de reta. Considere os vetores p, e p, 
mostrados na Figura 33.1(a). Podemos interpretar o produto cruzado p, X p, como a área assinalada do 
paralelogramo formado pelos pontos (0, 0),p,,p,ep,+p,=(x,+x,,), +). Uma definção equivalente, porém mais 
útil, dá o produto cruzado como o determinante de uma matriz: 


p,xp, = det 


P, + Po 


(0.0) x 
(a) (b) 


Figura 33.1 (a) O produto cruzado de vetores p, e p, é a área assinalada do paralelogramo. (b) A região sombreada em tom mais claro 
contém vetores que estão em sentido horário emrelação a p. A região sombreada em tom mais escuro contém vetores que estão em 
sentido anti-horário em relação a p. 


Se p:X pé positivo, então p: está em sentido horário em relação a p» em relação à origem (0, 0); se esse produto 
cruzado é negativo, então p: está em sentido anti-horário em relação a p> (veja o Exercício 33.1-1). A Figura 33.1(b) 
mostra as regiões horária e anti-horária em relação a um vetor p. Uma condição de contorno surge se o produto 
cruzado é zero; nesse caso, os vetores são colineares e apontam na mesma direção ou em direções opostas. 

Para determinar se um segmento dirigido p, p, está mais próximo de um segmento dirigido p, p, em sentido horário 
ou em sentido anti-horário em relação à sua extremidade comum p,, simplesmente fazemos a conversão para usar p, 
como origem. Isto é, denotamos o vetor p'=(x,',y,/)porp,—-pp. ondex,'=x,—-x,€)' =), — Yo € definimos p, — 
Po de maneira semelhante. Então calculamos o produto cruzado 


(p, —Po) Ea (Pp, — Po) = (x, = Xy)(y, — Yo) — (x, — XY, —Vo) 


Se esse produto cruzado é positivo, então ppp, está em sentido horário em relação a py p, ; se é negativo, ele está em 
sentido anti-horário. 


Determinando se segmentos consecutivos viram para a esquerda ou para a direita 


Nossa próxima pergunta é se dois segmentos de reta consecutivos p, Pp, € P, Pp, Vitam para a esquerda ou para a 
direita no ponto p,. Equivalentemente, queremos um método para determinar para que lado se curva um ângulo Zp, p, 
p, dado. Produtos cruzados nos permitem responder a essa pergunta sem calcular o ângulo. Como mostra a Figura 
33.2, basta verificar se o segmento dirigido p, p, está em sentido horário ou em sentido anti-horário em relação ao 
segmento dirigido py p, . Para tal, calculamos o produto cruzado (p, — po) X (p,— Po). Se o sinal desse produto cruzado 
é negativo, então p, p, está em sentido anti-horário em relação a ppp, e, portanto, viramos para a esquerda em p,. Um 
produto cruzado positivo indica uma orientação horária e uma virada para a direita. Um produto cruzado igual a O 
significa que os pontos pp, P, € p, são colineares. 


Determinando se dois segmentos de reta se interceptam 


Para determinar se dois segmentos de reta se interceptam, verificamos se cada segmento ultrapassa a reta que 
contém o outro. Um segmento p, p, ultrapassa uma reta se o ponto p, se encontra em um lado da reta e o ponto p, se 
encontra no outro lado. Um caso limite surge se p, ou p, se encontra sobre a reta. Dois segmentos de reta se 
interceptam se e somente se uma das condições a seguir é válida (ou ambas): 


1. Cada segmento ultrapassa a reta que contém o outro. 
2. Uma extremidade de um segmento encontra-se sobre o outro segmento. (Essa condição vem do caso limite.) 


P2 P2 
À : di P1 P1 ; e e 
Sentido anti-horário Sentido horário 
Po Po 


(a) (b) 


Figura 33.2 Usando o produto cruzado para determinar como segmentos de reta consecutivos p,p,€ Pp, Pp, viramno ponto p,. 
Werificamos se o segmento dirigido p,p, está em sentido horário ou em sentido anti-horário emrelação ao segmento dirigido pçp,. (a) Se 
em sentido anti-horário, os pontos viram para a esquerda. (b) Se em sentido horário, os pontos viram para a direita. 


Os procedimentos a seguir implementam essa ideia. SegmEnTS-INTERSECT RETORNA TRUE SE OS segmentos p, p, € Pp; Py Se 
interceptam e Fats se eles não se interceptam. Eles chamam as sub-rotinas Direcrion, que calcula orientações relativas 
usando o método do produto cruzado já descrito, e On-Secmenr, que determina se um ponto conhecido que sabemos ser 
colinear com um segmento encontra-se sobre esse segmento. 


SEGMENTS-INTERSECT(P,, P,. P;» 74) 

d, = DIRECTION(P., P,. P,) 

d, = DIRECTION(P., P,. P;) 

d, = DIRECTION(p,, P,. P.) 

d, = DIRECTION(p,, p,, P,) 

if((d>0ed,<0)ou(d <0ed, > 0))e 
((d,>0ed,<0)ou(d,<0ed,>0)) 

6 return TRUE 

7 elseifd, = 0e ON-SEGMENT(P., P,.P,) 

8 

9 


QRO 


retum TRUE 
elseif d, == 0 e ON-SEGMENT(P., P,, P,) 
10 return TRUE 
11 elseif d, == 0e ON-SEGMENT(P,, P,, P,) 
12 retum TRUE 
13 elseif d, == 0 e ON-SEGMENT(p,. P,. P,) 
14 retum TRUE 
15 else return FALSE 


DIRECTION(P,. DP,» ,) 

lretum (p,-p) x (p;—p) 

ON-SEGMENT(p., P, 9) 

1ifmin(x,, x) <x,<max(x,, x) emin(y,, v) <y,<max(y, v) 
2 return TRUE 

3 else return FALSE 


SEGMENTS-InTERSECT funciona da maneira ilustrada a seguir. As linhas 1-4 calculam a direção relativa d, de cada 
extremidade p, em relação ao outro segmento. Se todas as direções relativas forem não nulas, então é fácil determinar 
se os segmentos p, p, € Pp; Pp, Se interceptam, da maneira descrita a seguir. O segmento p, p, ultrapassa a reta que 


contém o segmento p, p, se os segmentos dirigidos p, p, € p; p, têm orientações opostas em relação a p; p, . Nesse 
caso, os sinais de d, e d, são diferentes. De modo semelhante, o segmento p, p, ultrapassa a reta que contém p, p, se os 
sinais de d, e d, são diferentes. Se o teste da linha 5 é verdadeiro, então os segmentos ultrapassam um ao outro, e 
SeGMENTS-INTERSECT retorna Trur. A Figura 33.3(a) mostra esse caso. Caso contrário, os segmentos não ultrapassam as 
retas de um e de outro, embora um caso limite possa ser aplicável. Se todas as orientações relativas forem não nulas, 
nenhum caso limite é aplicável. Então, todos os testes de comparação com O nas linhas 7-13 falham, e Seoments- 
IntERsECT retorna Fase na linha 15. A Figura 33.3(b) mostra esse caso. 

Um caso limite ocorre se qualquer orientação relativa d, é O. Aqui, sabemos que p, é colinear com o outro 
segmento. Ele está diretamente sobre o outro segmento se e somente se estiver entre as extremidades do outro 
segmento. O procedimento On-Secmenr retorna se p, está entre as extremidades do segmento p, p;, que será o outro 
segmento quando chamado nas linhas 7-13; o procedimento supõe que p, é colinear com o segmento p, p,. As Figuras 
33.3(c) e (d) mostram casos com pontos colineares. Na Figura 33.3(c), p, está emp, p,, e portanto Segmenrts-INTERSECT 
retorna True na linha 12. Nenhuma extremidade está sobre outros segmentos na Figura 33.3(d) e, portanto, Seoments- 
IntersecT retorna Fazse na linha 15. 


(pi-P3) X (p4-P3) < O e Ds (PD) X(Pa-P3) <O 
ei (pap) X (pp) <0 Pi 

á 7 

Ray 7) 


(PP) X (pop) >0 = 


P3 (Po-P3) X (pg-P3) > 0 p 
(a) (b) 


(Pa-Py) X(po-p;) < O 
(po-P3) X(Pg-p3) < O 


(P3-Py) X(po-p)>0 
3 


P4 P4 
Di P1 


Pa 
P3 


(c) (d) 


Figura 33.3 Casos no procedimento Segmenrs-intersecr. (a) Os segmentos p, p, e p; pyultrapassam as retas um do outro. Como p; p, 
ultrapassa a reta que contémp  p,, Os sinais dos produtos cruzados (p;—-p,)X(p;—p,)e(p;—p,)X(p,—p,) são diferentes. Como p, 
poultrapassa a reta que contémp;,p,, Os sinais dos produtos cruzados (p,—-p;)X(p;—p;)e(p;—p;)X(p,— p;) são diferentes. (b) O 
segmento p, p, ultrapassa a reta que contém p,p,, mas p,p, não ultrapassa a reta que contém p,p, . Os sinais dos produtos cruzados 
(pi—-p))X(p;y— p;)e(p;—p;)X (py ps) são iguais. (e) O ponto p; é colinear comp, p,e está entre p,e p,. (d) O ponto p, é colinear com 
p,P»>» mas não está entre p, e p, . Os segmentos não se interceptam. 


Outras aplicações de produtos cruzados 


Seções posteriores deste capítulo apresentam utilizações adicionais para produtos cruzados. Na Seção 33.3, 
precisaremos ordenar um conjunto de pontos de acordo com seus ângulos polares em relação a uma origem dada. 
Como o Exercício 33.1-3 pede que você mostre, podemos usar produtos cruzados para executar as comparações no 
procedimento de ordenação. Na Seção 33.2, usaremos árvores vermelho-preto para manter a ordenação vertical de 
um conjunto de segmentos de reta. Em vez de manter valores de chaves explícitos que comparamos uns aos outros no 
código da árvore vermelho-preto, calcularemos um produto cruzado para determinar qual dos dois segmentos que 
interceptam uma dada reta vertical está acima do outro. 


Exercícios 


33.1-1 


33.1-2 


33.1-3 


33.1-4 


33.1-5 


33.1-6 


33.1-7 


Prove que, se p, X p, é positivo, então o vetor p, está em sentido horário em relação ao vetor p, em relação à 
origem (0, 0) e que, se seu produto cruzado é negativo, então p, está em sentido anti-horário em relação a p,. 


O professor van Pelt sugere que somente a dimensão x precisa ser testada na linha 1 de On-Secmenr. Mostre 
por que o professor está errado. 


O ângulo polar de um ponto p, em relação a um ponto de origem p, é o ângulo do vetor p, — pp no sistema 
de coordenadas polares habitual. Por exemplo, o ângulo polar de (3, 5) em relação a (2, 4) é o ângulo do 
vetor (1, 1), que é 45 graus ou p/4 radianos. O ângulo polar de (3, 3) em relação a (2, 4) é o ângulo do vetor 
(1, —1), que é 315 graus ou 7p/4 radianos. Escreva pseudocódigo para ordenar uma sequência (p,, Pp», ..., P,) 
de n pontos de acordo com seus ângulos polares em relação a um determinado ponto de origem pp. Seu 
procedimento deve demorar o tempo O(n lg nn) e usar produtos cruzados para comparar ângulos. 


Mostre como determinar no tempo O(n, lg n) se três pontos quaisquer em um conjunto de n pontos são 
colineares. 


Um polígono é uma curva fechada formada por segmentos lineares no plano. Ou seja, é uma curva que 
termina em si mesma e é formada por uma sequência de segmentos de reta denominados lados do polígono. 
Um ponto que une dois lados consecutivos é denominado vértice do polígono. Se o polígono é simples, o 
que geralmente consideraremos aqui, seus lados não se cruzam. O conjunto de pontos no plano delimitados 
por um polígono simples forma o interior do polígono, o conjunto de pontos sobre o polígono propriamente 
dito forma seu contorno, e o conjunto de pontos que cercam o polígono forma seu exterior. Um polígono 
simples é convexo se, dados quaisquer dois pontos em seu contorno ou em seu interior, todos os pontos 
sobre o segmento de reta traçado entre eles estão contidos no contorno ou no interior do polígono. Um 
vértice de um polígono convexo não pode ser expresso como uma combinação convexa de quaisquer dois 
pontos sobre o contorno ou no interior do polígono. 


O professor Amundsen propõe o método a seguir para determinar se uma sequência (p,, P;, ...,P,- !) den 
pontos forma os vértices consecutivos de um polígono convexo. O resultado é “sim” se o conjunto 
tZpp;tip+2:i=0,1,...,n — 1), onde a adição de índices é executada módulo n, não contém ambas, 
curvas para a esquerda e curvas para a direita; caso contrário, o resultado é “não”. Mostre que, embora esse 
método seja executado em tempo linear, nem sempre produz a resposta correta. Modifique o método do 
professor de modo que ele sempre produza a resposta correta em tempo linear. 


Dado um ponto p, = (X9, Yo) O raio horizontal direito de p, é o conjunto de pontos tp, = (x, V):x,> x, € 
XY; = Yo), Isto é, é o conjunto de pontos que devem estar à direita de pp, juntamente com o próprio p,. Mostre 
como determinar se um dado raio horizontal direito de p, intercepta um segmento p, p, de reta no tempo O(1) 
reduzindo o problema ao determinar se dois segmentos de reta se interceptam. 


Um modo de determinar se um ponto p, está no interior de um polígono P simples, mas não necessariamente 
convexo, é observar qualquer raio de p, e verificar que o raio intercepta o contorno de P um número ímpar de 
vezes, mas que o próprio pp não está no contorno de P. Mostre como calcular no tempo Q(n) se um ponto p, 
está no interior de um polígono P de n vértices. (Sugestão: Use o Exercício 33.1-6. Certifique-se de que seu 
algoritmo está correto quando o raio intercepta o contorno do polígono em um vértice e quando o raio se 
sobrepõe a um lado do polígono.) 


33.1-8 Mostre como calcular a área de um polígono de n vértices simples, mas não necessariamente convexo, no 
tempo Q(n). (Veja no Exercício 33.1-5 definições pertinentes a polígonos.) 


33.2 DETERMINANDO SE DOIS SEGMENTOS QUAISQUER SE INTERCEPTAM 


Esta seção apresenta um algoritmo para determinar se dois segmentos de reta quaisquer em um conjunto de 
segmentos se interceptam. O algoritmo utiliza uma técnica conhecida como “varredura”, comum a muitos algoritmos de 
geometria computacional. Além disso, como mostram os exercícios no final desta seção, esse algoritmo, ou variações 
simples dele, pode ajudar a resolver outros problemas de geometria computacional. 

O algoritmo é executado no tempo O(n lg n), onde n é o número de segmentos dados. Determina somente se 
existe ou não alguma interseção; não imprime todas as interseções. (Pelo Exercício 33.2-1, ele demora o tempo (n,) no 
pior caso para encontrar todas as interseções em um conjunto de n segmentos de reta.) 

Na varredura, uma linha de varredura vertical imaginária passa pelo conjunto de objetos geométricos dado, em 
geral da esquerda para a direita. Tratamos a dimensão espacial pela qual a linha de varredura se move, nesse caso a 
dimensão x, como uma dimensão de tempo. A varredura nos dá um método para ordenar objetos geométricos, 
normalmente colocando-os em uma estrutura de dados dinâmica, e para aproveitar as relações entre eles. O algoritmo 
de interseção de segmentos de reta nesta seção considera todas as extremidades de segmentos de reta em ordem da 
esquerda para a direita e verrfica se há uma interseção toda vez que encontra uma extremidade. 

Para descrever e provar a correção de nosso algoritmo para determinar se dois segmentos de reta quaisquer entre 
n segmentos de reta se interceptam, adotaremos duas hipóteses simplificadoras. A primeira é que supomos que nenhum 
segmento de entrada é vertical. A segunda é que supomos que nenhuma tripla desses segmentos se intercepta em um 
único ponto. Os Exercícios 33.2-8 e 33.2-9 pedem para mostrar que o algoritmo é suficientemente robusto e por isso 
precisa somente de uma ligeira modificação para funcionar mesmo quando essas hipóteses não são válidas. Na 
realidade, eliminar tais hipóteses simplificadoras e lidar com condições de contorno, muitas vezes, configuram os 
desafios mais dificeis na programação de algoritmos de geometria computacional e na prova de sua correção. 


Ordenar segmentos 


Visto que supomos que não há nenhum segmento vertical, sabemos que qualquer segmento de entrada que 
intercepta uma linha de varredura vertical dada intercepta a linha de varredura em um único ponto. Assim, podemos 
ordenar os segmentos que interceptam uma linha de varredura vertical de acordo com as coordenadas y dos pontos de 
interseção. 

Para sermos mais precisos, considere dois segmentos s, e s,. Dizemos que esses segmentos são comparáveis em 
x se a linha de varredura vertical cuja coordenada x é x interceptar ambos os segmentos. Dizemos que s, está acima de 
s,emx, indicado por s,*s,, ses, e s, São comparáveis em x e a interseção de s, com a linha de varredura em x é mais 
alta que a interseção de s, com a mesma linha de varredura ou se s, e s, se interceptarem na linha de varredura. Na 
Figura 33.4(a), por exemplo, temos as relações a rc, a tb, bic,atc,e buc. O segmento d não é comparável com 
nenhum outro segmento. 

Para qualquer x dado, a relação “»” é uma pré-ordenação total (ver a Seção B.2) para todos os segmentos que 
interceptam a linha de varredura em x. Isto é, a relação é transitiva e, se cada um dos segmentos s, e s, interceptarem a 
linha de varredura em x, então srs, ou s,*s, ou ambos (se s, e s, se interceptam na linha de varredura). (A relação x é 
também reflexiva, mas não é simétrica nem assimétrica.) Todavia, a pré-ordenação total pode ser diferente para valores 
diferentes de x, à medida que segmentos entram e saem da ordenação. Um segmento entra na ordenação quando sua 
extremidade esquerda é encontrada pela varredura e sai da ordenação quando sua extremidade direita é encontrada. 
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Figura 33.4 Ordenação entre segmentos de reta em diversas linhas de varredura verticais. (a) Temos a rc,a +b,bic,arc,ebuc.O 

segmento d não é comparável a nenhum outro segmento mostrado. (b) Quando os segmentos e e fse interceptam, suas ordens são 
invertidas: temos e », mas fwe. Qualquer linha de varredura (tal como z) que passe pela região sombreada teme e fconsecutivos na 
ordenação dada pela relação z. 


O que acontece quando a linha de varredura passa pela interseção de dois segmentos? Como mostra a Figura 
33.4(b), as posições dos segmentos são invertidas na pré-ordenação total. As linhas de varredura v e w estão à 
esquerda e à direita, respectivamente, do ponto de interseção dos segmentos e e f, e temos evfe f we. Observe que, 
como supomos que não há três segmentos que se interceptam no mesmo ponto, deve existir alguma linha de varredura 
vertical x para a qual os segmentos e e f que se interceptam são consecutivos na pré-ordenação total x. Qualquer linha 
de varredura que passe pela região sombreada da Figura 33.4(b), tal como z, tem e e f consecutivos em sua pré- 
ordenação total. 


Movendo a linha de varredura 


Os algoritmos de varredura normalmente administram dois conjuntos de dados: 

1. O status da linha de varredura dá as relações entre os objetos que a linha de varredura intercepta. 

2. O escalonamento de pontos eventuais é uma sequência de pontos denominados pontos eventuais ordenamos 
da esquerda para a direita, de acordo com suas coordenadas x. À medida que a varredura progride da esquerda 
para a direita, sempre que a linha de varredura alcança a coordenada x de um ponto eventual, a varredura para e 
depois recomeça. Mudanças no status da linha de varredura ocorrem somente em pontos eventuais. 


Para alguns algoritmos (por exemplo, o algoritmo solicitado no Exercício 33.2-7), o escalonamento de pontos 
eventuais desenvolve-se dinamicamente à medida que o algoritmo progride. Entretanto, o algoritmo à mão determina 
todos os pontos eventuais antes da varredura, exclusivamente com base em propriedades simples dos dados de 
entrada. (Se duas ou mais extremidades são coverticais, isto é, se tiverem a mesma coordenada x, desempatamos 
colocando todas as extremidades coverticais esquerdas antes das extremidades coverticais direitas. Dentro de um 
conjunto de extremidades esquerdas coverticais, colocamos em primeiro lugar as que têm coordenadas y mais baixas e 
fazemos o mesmo com um conjunto de extremidades coverticais direitas. Quando encontramos a extremidade esquerda 
de um segmento, inserimos o segmento no status da linha de varredura e eliminamos o segmento do status da linha de 
varredura quando encontramos sua extremidade direita. Sempre que dois segmentos se tornam consecutivos pela 
primeira vez na pré-ordenação total, verificamos se eles se interceptam. 

O status da linha de varredura é uma pré-ordenação total T, para a qual exigimos as seguintes operações: 

*— Inseri(T, s): insere segmento s em 7. 

*— Dezere(T, s): elimina o segmento s de T. 

*— Asove(T, s): retorna o segmento imediatamente acima do segmento s em 7. 
*  Berow(T, s): retorna o segmento imediatamente abaixo do segmento s em 7. 

É possível que os segmentos s, e s, estejam mutuamente um acima do outro na pré-ordenação total T; essa 
situação pode ocorrer se s, e s, se interceptam na linha de varredura cuja pré-ordenação total é dada por 7. Nesse 


caso, os dois segmentos podem aparecer em qualquer das ordens em 7. 

Se a entrada contiver n segmentos, podemos efetuar cada uma das operações Inserr, DeLere, ABove € BELOW NO 
tempo Ollg n) usando árvores vermelho-preto. Lembre-se de que as operações em árvores vermelho-preto vistas no 
Capítulo 13 envolvem a comparação de chaves. Podemos substituir as comparações de chaves por comparações que 
usam produtos cruzados para determinar a ordenação relativa de dois segmentos (veja o Exercício 33.2-2). 


Pseudocódigo de interseção de segmentos 


O algoritmo a seguir toma como entrada um conjunto S de n segmentos de reta e devolve o valor booleano Truz se 
qualquer par de segmentos em S se intercepta, caso contrário devolve Fase. A árvore vermelho-preto mantém a pré- 
ordenação total 7. 


ANY-SEGMENTS-INTERSECT(S) 

1T=0 

2 ordenar as extremidades dos segmentos em S da esquerda para a direita, 
resolvendo empates colocando extremidades esquerdas 
antes de extremidades direitas e resolvendo empates adicionais colocando em primei- 
ro lugar pontos com coordenadas y mais baixas 

3 for cada ponto p na lista ordenada de extremidades 

4 — ifpéa extremidade esquerda de um segmento s 


5 INSERT(T, s) 
6 if (ABovE(T, s) existe e intercepta s) 

ou (BELOW(T, s) existe e intercepta s) 
7 return TRUE 
8 if p é a extremidade direita de um segmento s 
9 if ABovE(T,s) e BELOW(T,s) existem 

e Asove(T,s) intercepta BELOW(T, s) 

10 return TRUE 
11 DELETE(T,s) 


12 return FALSE 


A Figura 33.5 ilustra como o algoritmo funciona. A linha 1 inicializa a pré-ordenação total como vazia. A linha 2 
determina o escalonamento de pontos eventuais ordenando as 2n extremidades de segmentos da esquerda para a 
direita, resolvendo empates da maneira já descrita. Um modo de executar a linha 2 é ordenar lexicograficamente as 
extremidades em (x, e, ), onde x e y são as coordenadas habituais, e = O para uma extremidade esquerda e e = 1 para 
uma extremidade direita. 
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Figura 33.5 Execução de Any-secments-intersecr. Cada linha tracejada é a linha de varredura em um ponto eventual. Exceto na linha de 
varredura da extrema direita, a ordenação de nomes de segmentos abaixo de cada linha de varredura corresponde à pré-ordenação total 
Tno final do processamento do laço for para o ponto eventual correspondente. A linha de varredura da extrema direita ocorre durante o 
processamento da extremidade direita do segmento c; como os segmentos d e b circundam e se interceptam, o procedimento devolve 
TRUE. 


Cada iteração do laço for das linhas 3-11 processa um ponto eventual p. Se p é a extremidade esquerda de um 
segmento s, a linha 5 acrescenta s à pré-ordenação total, e as linhas 6-7 devolvem TRUE se s intercepta qualquer dos 
segmentos aos quais é consecutivo na pré-ordenação total definida pela linha de varredura que passa por p. (Uma 
condição de contorno ocorre se p encontra-se sobre um outro segmento s”. Nesse caso, basta que s e s' sejam 
inseridos consecutivamente em 7.) Se p é a extremidade direita de um segmento s, então precisamos eliminar s da pré- 
ordenação total Mas, primeiro, as linhas 9-10 devolvem TRUE se existe uma interseção entre os segmentos que 
circundam s na pré-ordenação total definida pela linha de varredura que passa por p. Se esses segmentos não se 
interceptam, a linha 11 elimina o segmento s da pré-ordenação total. Se os segmentos que circundam o segmento s se 
interceptam, eles teriam se tornado consecutivos após a eliminação de s, caso a declaração retum na linha 10 não 
tivesse impedido a execução da linha 11. O argumento de correção, que apresentamos em seguida, esclarecerá por que 
é suficiente verificar os segmentos que circundam s. Finalmente, se nunca encontrarmos, uma interseção após o 
processamento de todos os 2n pontos eventuais, a linha 12 devolverá Fase. 


Correção 


Para mostrar que Any-SegMENnTS-INTERSECT É Correto, provaremos que a chamada Any-Secments-Intersecr(S) devolve 
TRuE Se € somente se existe uma interseção entre os segmentos em S. 

É fácil ver que Anv-Sements-InteRsEcT devolve Trus (nas linhas 7 e 10) somente se encontra uma interseção entre 
dois dos segmentos de entrada. Consequentemente, se ele retorna Trur, existe uma interseção. 

Também precisamos mostrar o inverso: se existe uma interseção, então Any-Secments-Intersecr devolve Trur. Vamos 
supor que haja no mínimo uma interseção. Seja p o ponto de interseção na mais à esquerda, decidindo empates 
escolhendo o ponto que tem a menor coordenada y, e sejam a e b os segmentos que se interceptam em p. Visto que 
não ocorre nenhuma interseção à esquerda de p, a ordem dada por T é correta em todos os pontos à esquerda de p. 
Como não há três segmentos que se interceptam no mesmo ponto, a e b se tornam consecutivos na pré-ordenação total 
em alguma linha de varredura z.2 Além disso, z está à esquerda de p ou passa por p. Alguma extremidade de segmento 
q na linha de varredura z é o ponto eventual no qual a e b se tornam consecutivos na pré-ordenação total. Se p está na 


linha de varredura z, então q = p. Se p não está na linha de varredura z, então q está à esquerda de p. Em qualquer 
caso, a ordem dada por T é correta imediatamente antes de encontrar q. (É aqui que usamos a ordem lexicográfica na 
qual o algoritmo processa pontos eventuais. Como p é o mais baixo dos pontos de interseção da extrema esquerda, 
mesmo que p esteja sobre a linha de varredura z e algum outro ponto de interseção p' esteja sobre z, o ponto eventual q 
= p é processado antes de a outra interseção p' poder interferir na pré-ordenação total T. Além disso, ainda que p seja 
a extremidade esquerda de um segmento, digamos a, e a extremidade direita do outro segmento seja, digamos b, como 
os eventos da extremidade esquerda ocorrem antes dos eventos da extremidade direita, o segmento b está em 7 
quando encontra pela primeira vez o segmento a.) O ponto eventual q é processado por Any-Segments-IntERSECT OU NÃO É 
processado. 

Se q é processado por Any-Segments-Intersecr, só há duas ações possíveis que podem ocorrer: 

1. Ouaou b é inserido em T, e o outro segmento está acima ou abaixo dele na pré-ordenação total. As linhas 4-7 
detectam esse caso. 
2. Os segmentos a e b já estão em 7, e um segmento entre eles na pré-ordenação total é eliminado, o que transforma 

a e b em consecutivos. As linhas 8-11 detectam esse caso. 

Em qualquer dos casos, encontramos a interseção p, e Any-Seoments-Intersecr devolve Truz. 

Se o ponto eventual q não é processado por Any-Seomenrs-IntersecT, O procedimento deve ter retornado antes de 
processar todos os pontos eventuais. Essa situação só poderia ter ocorrido se Any-Secments-IntERSECT já tivesse 
encontrado uma interseção e devolvido Tu. 

Assim, se existe uma interseção, ANY-SEGMENTS-INTERSECT retorna Trus. Como Já vimos, SE ANY-SEGMENTS-INTERSECT 
devolve Trur, existe uma interseção. Portanto, Any-Secments-Intersecr sempre devolve uma resposta correta. 


Tempo de execução 


Se o conjunto S contém n segmentos, então Any-Segments-IntersEcT É executado no tempo O(n lg n). A linha 1 
demora o tempo O(1). A linha 2 demora o tempo O(n lg n), usando a ordenação por intercalação ou heapsort. O laço 
for das linhas 3-11 ítera no máximo uma vez por ponto eventual e, portanto, com 2n pontos eventuais, o laço itera no 
máximo 2n vezes. Cada iteração demora o tempo O(lg n), já que cada operação da árvore vermelho-preto demora o 
tempo O(lg nn) e, usando o método da Seção 33.1, cada teste de interseção demora o tempo O(1). Assim, o tempo 
total é O(n lg n). 


Exercícios 
33.2-1. Mostre que um conjunto de n segmentos de reta pode conter Q(n,) interseções. 


33.2-2 Dados dois segmentos a e b que são comparáveis em x, mostre como determinar no tempo O(1) qual dentre 
axboubxa é válida Suponhaque nenhum dos segmentos é vertical (Sugestão: Sea e b não se 
interceptam, você pode simplesmente usar produtos cruzados. Se a e b se interceptam — o que, é claro, se 
pode determinar usando apenas produtos cruzados — você ainda pode usar somente adição, subtração e 
multiplicação, evitando a divisão. É claro que, na aplicação da relação » utilizada aqui, se a e b se interceptam, 
podemos apenas parar e declarar que encontramos uma interseção.) 


33.2-3 O professor Mason sugere que modifiquemos Any-Segments-IntersEcT de modo que, em vez de retornar ao 
encontrar uma interseção, imprima os segmentos que se interceptam e passe para a próxima iteração do laço 
for. O professor denomina o procedimento resultante Print-InteRsECTING-SEGMENTS € afirma que ele imprime 
todas as interseções, da esquerda para a direita, à medida que elas ocorrem no conjunto de segmentos de 
reta. O professor Dixon discorda e afirma que a ideia do professor Mason é incorreta. Qual dos professores 
está certo? O procedimento Print-IntERsECTING-SEGMENTS Sempre encontra primeiro a interseção da extrema 
esquerda? Sempre encontrará todas as interseções? 


33.2-4 Dê um algoritmo de tempo O(n lg n) para determinar se um polígono de n vértices é simples. 


33.2-5 Dê um algoritmo de tempo On lg n) para determinar se dois polígonos simples com um total de n vértices se 
interceptam. 


33.2-6 Um disco consiste em uma circunferência mais seu interior e é representado por seu ponto central e raio. Dois 
discos se interceptam se têm algum ponto em comum. Dê um algoritmo de tempo O(n lg n) para determinar se 
dois discos quaisquer em um conjunto de n discos se interceptam. 


33.2-7 Dado um conjunto de n segmentos de reta contendo um total de k interseções, mostre como apresentar todas 
as k interseções no tempo Ol((n + k)lg n). 


33.2-8 Mostre que Any-Seoments-IntERSECT funciona corretamente mesmo que três ou mais segmentos se interceptem 
no mesmo ponto. 


33.2-9 Mostre que Any-Segments-IntERSECT funciona corretamente na presença de segmentos verticais se tratarmos a 
extremidade inferior de um segmento vertical como se fosse uma extremidade esquerda e a extremidade 
superior como se fosse uma extremidade direita. Como sua resposta ao Exercício 33.2-2 muda se 
permitirmos segmentos verticais? 


33.3 DETERMINANDO A ENVOLTÓRIA CONVEXA 


A envoltória convexa de um conjunto O de pontos, denotada por CH(O), é o menor polígono convexo P para o 
qual cada ponto em OQ está no contorno de P ou em seu interior (veja no Exercício 33.1-5 uma definição precisa de 
polígono convexo). Supomos implicitamente que todos os pontos no conjunto O são únicos e que O contém no mínimo 
três pontos que não são colineares. Intuitivamente, podemos imaginar cada ponto em O como um prego cuja cabeça 
fica um pouco acima de uma tábua. Então, a envoltória convexa é a forma produzida por uma tira elástica apertada que 
passa por todos os pregos. A Figura 33.6 mostra um conjunto de pontos e sua envoltória convexa. 

Nesta seção, apresentaremos dois algoritmos que calculam a envoltória convexa de um conjunto de n pontos. 
Ambos produzem os vértices da envoltória em ordem anti-horária. O primeiro, conhecido como varredura de Graham, 
é executado no tempo O(n lg n). O segundo, denominado marcha de Jarvis, é executado no tempo O(nh), onde A é o 
número de vértices da envoltória convexa. Como ilustra a Figura 33.6, todo vértice de CH(O) é um ponto em OQ. 
Ambos os algoritmos exploram essa propriedade, decidindo quais vértices em O são mantidos como vértices da 
envoltória convexa e quais vértices em Q são descartados. 

Podemos calcular envoltórias convexas no tempo O(n lg n) por qualquer um de vários métodos. A varredura de 
Graham e a marcha de Jarvis usam uma técnica denominada “varredura rotacional” e processam vértices na ordem dos 
ângulos polares que eles formam com um vértice de referência. Entre outros métodos, citamos os seguintes: 

* No método incremental, em primeiro lugar ordenamos os pontos da esquerda para a direita, produzindo uma 
sequência (p1, p2, ..., Pr) . Na i-ésima etapa, atualizamos a envoltória convexa dos i — 1 pontos mais à esquerda, 
CH(fp,,p,,-..,p;- !)) de acordo com i-ésimo ponto contando da esquerda, formando assim CH((p, , p,» ..., 
p; +). O Exercício 33.3-6 pede que você mostre como implementar esse método de modo que seja executado no 
tempo total de O(n lg nn). 
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Figura 33.6 Um conjunto de pontos O = fp,,P,,.... py ; comsua envoltória convexa CH(O) traçada em cinzento. 


* | No método de divisão e conquista dividimos, no tempo Q(n), o conjunto de n pontos em dois subconjuntos, um 
contendo os n/2 pontos mais à esquerda e um contendo os n/2 pontos mais à direita, calculamos recursivamente as 
envoltórias convexas dos subconjuntos e depois, por meio de um método inteligente, combinamos as envoltórias no 
tempo Q(n). O tempo de execução é descrito pela conhecida recorrência T(n) = 27 (n/2) + O(n) , e, portanto, o 
método de divisão e conquista é executado no tempo O(n lg n). 

* O método de poda e busca é semelhante ao algoritmo da mediana de tempo linear do pior caso da Seção 9.3. 
Com esse método, encontramos a porção superior (ou “cadeia superior” da envoltória convexa descartando 
repetidamente uma fração constante dos pontos remanescentes até restar somente a cadeia superior da envoltória 
convexa. Então, fazemos o mesmo para a cadeia inferior. Esse método é assintoticamente o mais rápido: se a 
envoltória convexa contém A vértices, ele é executado no tempo de somente O(n lg A). 


Calcular a envoltória convexa de um conjunto de pontos é um problema interessante por si só. Além disso, 
algoritmos para alguns outros problemas de geometria computacional começam pelo cálculo de uma envoltória convexa. 
Considere, por exemplo,o problema do par mais afastado bidimensional: temos um conjunto de n pontos no plano e 
desejamos encontrar os dois pontos cuja distância entre eles seja máxima. Como o Exercício 33.3-3 pede para provar, 
esses dois pontos devem ser vértices da envoltória convexa. Se bem que não provaremos isso aqui, podemos encontrar 
o par de vértices mais afastado de um polígono convexo de n vértices no tempo O(n). Assim, calculando a envoltória 
convexa dos n pontos de entrada no tempo O(n lg n) e depois encontrando o par mais afastado dos vértices do 
polígono convexo resultante, podemos localizar o par de pontos mais afastados em qualquer conjunto de n pontos no 


tempo O(n lg n). 


Varredura de Graham 


A varredura de Graham resolve o problema da envoltória convexa mantendo uma pilha S de pontos candidatos. 
A varredura insere cada ponto do conjunto de entrada Q na pilha uma vez e, a certa altura, retira da pilha cada ponto 


que não é um vértice de CH(O). Quando o algoritmo termina, a pilha S contém exatamente os vértices de CH(Q), em 
ordem anti-horária das posições que ocupam na envoltória. 

O procedimento Gramam-Scan toma como entrada um conjunto OQ de pontos, onde |O| > 3. Chama a função Tor(S), 
que retorna o ponto que está no topo da pilha S sem mudar S, e a função Nexr-To-Tor(S), que retorna o ponto que está 
uma entrada abaixo do topo da pilha S, sem mudar S. Como demonstraremos em breve, a pilha S retornada por 
GraHaM-Scan contém, de baixo para cima, exatamente os vértices de CH(QO) em ordem anti-horária. 


GRAHAM-SCAN((Q) 
1 seja p, o ponto em Q com a coordenada y mínima 
ou tal ponto que esteja mais à esquerda no caso de empate 
2 sejam (p,,p,. ...,P,) Os pontos restantes em Q, 
ordenados por ângulo polar em ordem anti-horária em torno de p, 
(se mais de um ponto tiver o mesmo ângulo, remover todos eles, exceto o mais 
afastado de p,) 
3 seja S uma pilha vazia 
4 PusH(p,, S) 
5 PusH(p,,S) 
6 ifm = 2 PusH(p,,S) 
7 fori=3tom 
8 while o ângulo formado pelos pontos Nexr-To-Tor(S), 
Tor(S) e p, curva não vira para a esquerda 


9 Por(S) 
10 PusH(p,..) 
11 return S 


A Figura 33.7 ilustra o progresso de Granam-Scan. À linha 1 escolhe o ponto p, como o ponto que tem a 
coordenada y mais baixa e escolhe o ponto da extrema esquerda no caso de um empate. Visto que não existe nenhum 
ponto em Q que esteja abaixo de p, e todos os outros pontos com a mesma coordenada y estão à sua direita, pp deve 
ser um vértice de CH(O). A linha 2 ordena os pontos restantes de Q por ângulo polar em relação a p, usando o mesmo 
método — comparação de produtos cruzados —, como no Exercício 33.1-3. Se dois ou mais pontos têm o mesmo 
ângulo polar em relação a p,, todos exceto o mais afastado desses pontos são combinações convexas de p, e do ponto 
mais afastado e, portanto, não nos preocupamos mais com eles. Representamos por m o número de pontos que restam, 
exceto pp. O ângulo polar, medido em radianos, de cada ponto de O em relação a p, está no intervalo meio aberto [0, 
p). Visto que os pontos são ordenados de acordo com ângulos polares, são ordenados em ordem anti-horária em 
relação a pp. Designamos essa sequência ordenada de pontos por <p, , p,» ..., Pm). Observe que os pontos p, e p,, são 
vértices de CH(QO) (veja o Exercício 33.3-1). A Figura 33.7(a) mostra os pontos da Figura 33.6 numerados 
sequencialmente em ordem crescente de ângulo polar em relação a p, 

O restante do procedimento utiliza a pilha S. As linhas 3-5 inicializam a pilha para conter, de baixo para cima, os 
três primeiros pontos p,, Pp, € p,. A Figura 33.7(a) mostra a pilha imicial.S. O laço for das linhas 77-10 itera uma vez para 
cada ponto na subsequência (p,, P4, ..., Pm)- Veremos que, após o processamento do ponto p,, a pilha S contém, de 
baixo para cima, os vértices de CH(p,, p,, ..., p;) em ordem anti-horária. O laço while das linhas 8-9 remove pontos 
da pilha se constatarmos que eles não são vértices da envoltória convexa. Quando percorremos a envoltória convexa 
em ordem anti-horária, devemos virar para a esquerda em cada vértice. Assim, toda vez que o laço while encontra um 
vértice no qual fazemos uma curva que não é para a esquerda, extraímos o vértice da pilha. (Como verifica virada que 
não é para a esquerda, em vez de verificar apenas uma virada para a direita, esse teste exclui a possibilidade de um 
ângulo raso (180º) em um vértice da envoltória convexa resultante. Não queremos nenhum ângulo raso, já que nenhum 
vértice de um polígono convexo pode ser uma combinação convexa de outros vértices do polígono.) Depois de extrair 
todos os vértices que têm viradas que não são para a esquerda quando seguimos na direção do ponto p,, inserimos p, 


na pilha. As Figuras 33.7 (b)-(k) mostram o estado da pilha S após cada iteração do laço for. Finalmente, Gramam-scan 
devolve a pilha S na linha 11. A Figura 33.7(1) mostra a envoltória convexa correspondente. 
O teorema a seguir prova formalmente a correção de GraHam-scan. 


Teorema 33.1 (Correção da varredura de Graham) 


Se GraHam-Scan é executado em um conjunto Q de pontos, onde |O| > 3, então, no término, a pilha S consiste, de baixo 
para cima, exatamente nos vértices de CH(Q) em ordem anti-horária. 


Prova Depois da linha 2, temos a sequência de pontos (p,, p>, ..., Pm). Vamos definir, para i = 2,3,..,m,o 
subconjunto de pontos O, = (po, DP,» -..» P;y. Os pontos em O — O. são aqueles que foram removidos porque tinham o 
mesmo ângulo polar em relação a p, que algum ponto em Q.; esses pontos não estão em CH(O) e, portanto, CH(O.) 
= CH(O). Assim, basta mostrar que, quando GraHam-Scan termina, a pilha S consiste nos vértices de CH(O.) em ordem 
anti-horária, quando apresentados de baixo para cima. Observe que, exatamente como p,, p, e pm são vértices de 
CH(Q), os pontos p,, p, € p; são vértices de CH(O,). 
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Figura 33.7 Execução de Granam-Scan no conjunto Q da Figura 33.6. A envoltória convexa atual contida na pilha S é mostrada em 
cinzento a cada etapa. (a) A sequência (p,,p,,...,P1 ) de pontos numerados em ordem crescente de ângulo polar emrelação a pçe a 
pilha inicial S contendo p,,p, e p,. (bh-(k) A pilha S depois de cada iteração do laço for das linhas 7-10. Linhas tracejadas mostram 
viradas que não são para a esquerda, o que provoca a extração de pontos da pilha. Por exemplo, na parte (h) a virada para a direita no 


ângulo Z p, ps p, resulta na extração de ps e, então, a virada para a direita no ângulo pp, p, resulta na extração de p,. 
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Figura 33.7 (continuação). (1) Envoltória convexa devolvida pelo procedimento, que corresponde à da Figura 33.6. 


A prova utiliza o seguinte invariante de laço: 
No início de cada iteração do laço for das linhas 7-10, a pilha S consiste, de baixo para cima, exatamente nos 
vértices de CH(O, - 1) em ordem anti-horária. 


Inicialização: O invariante é válido na primeira vez que executamos a linha 7, já que, nesse momento, a pilha $ 
consiste exatamente nos vértices de O, = O, - 1, e esse conjunto de três vértices forma sua própria envoltória 


1 


convexa. Além disso, eles aparecem em ordem anti-horária de baixo para cima. 


Manutenção: Ao entrar em uma iteração do laço for, o ponto que está no alto da pilha S é p, - 1, que foi inserido 
no final da iteração anterior (ou antes da primeira iteração, quando i = 3). Seja p; o ponto que está no alto da 
pilha S após a execução do laço while nas linhas 8-9, mas antes de a linha 10 inserir p,, e seja p, o ponto 
imediatamente abaixo de p; em S. No momento em que p; é o ponto que está no alto da pilha S e ainda não 
empurramos p,, a pilha S contém exatamente os mesmos pontos que continha depois da iteração j do laço for. 
Então, pelo mvariante de laço, S contém exatamente os vértices de CH(O,) naquele momento e eles aparecem 
em ordem anti-horária de baixo para cima. 


Vamos continuar a focalizar esse momento imediatamente antes de p, ser empurrado. Sabemos que o ângulo polar 
de p; em relação a p, é maior que o ângulo polar de p, e que o ângulo Z p, p; p; vira para a esquerda (caso contrário 
teríamos extraído p;). Portanto, como S contém exatamente os vértices de CH(O,), vemos, pela Figura 33.8(a), que, 
uma vez empurrado p,, a pilha S conterá exatamente os vértices de CH(O, U +p;)), ainda em ordem anti-horária de 
baixo para cima. 

Agora, mostramos que CH(O, U +p;)) é o mesmo conjunto de pontos que CH(O). Considere qualquer ponto p, 
que tenha sido extraído durante a iteração i do laço for e seja p, o ponto imediatamente abaixo de p, na pilha S no 
momento em que p, foi extraído (p, poderia ser p; ). O ângulo p, p, p; faz uma curva não para a esquerda e o ângulo 
polar de p, emrelação a p, é maior que o ângulo polar de p,. Como mostra a Figura 33.8(b), p, deve estar no interior do 
triângulo formado por Z po, P,€ p; ou sobre um lado desse triângulo (mas ele não é um vértice do triângulo). É claro 
que, como p, está dentro de um triângulo formado por três outros pontos de Q., ele não pode ser um vértice de CH(O, 
). Visto que p, não é um vértice de CH(O)), temos que 


CH(O, — (p,)) = CH(O) . (33.1) 


Seja P, o conjunto de pontos que foram extraídos durante a iteração i do laço for. Visto que a igualdade (33.1) se 
aplica a todos os pontos em P,, podemos aplicá-la repetidamente para mostrar que CH(O, — P) = CH(O). Porém, O, 
—P,=0 U tp; e, assim, concluímos que CH(O. (p;)) = CH(O,— P) = CH(O)). 

Mostramos que, uma vez empurrado p,, a pilha .S contém exatamente os vértices de CH(O,) em ordem anti-horária 
de baixo para cima. Então, incrementar i tornará o invariante de laço válido para a próxima iteração. 
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Figura 33.8 Prova da correção de Granam-scan. (a) Como o ângulo polar de p;emrelação a p, é maior que o ângulo polar de p,, e como o 
ângulo pr p;pivira à esquerda, somar p;a CH(O)) resulta exatamente nos vértices de CH(O, U (pi). (b) Se o ângulo Z prp:pinão vira 
para a esquerda, então p está no interior do triângulo formado por p,, pre p;ou sobre um lado do triângulo, o que significa que não 
pode ser um vértice de CH(O)). 


Término: Quando o laço termina, temos i = m + 1 e, portanto, o invariante de laço implica que a pilha S consiste 
exatamente nos vértices de CH(O ), que é CH(Q), em ordem anti-horária de baixo para cima. Isso conclui a 
prova. 


Agora, mostraremos que o tempo de execução de Gramam-Scan é O(n lg n), onde n = |O]. A linha 1 demora o 
tempo Q(n). A linha 2 demora o tempo O(n lg n), usando ordenação por intercalação ou heapsort para ordenar os 
ângulos polares e o método de produtos cruzados da Seção 33.1 para comparar ângulos. (Podemos eliminar todos os 
pontos, exceto o mais afastado, que tenham o mesmo ângulo polar no tempo total O(n) para todos os n pontos.) As 
linhas 3-6 demoram o tempo O(1). Como m <n — 1,0 laço for das linhas 7-10 é executado no máximo n — 3 vezes. 
Visto que Pusn demora o tempo O(1), cada iteração demora o tempo O(1) excluído o tempo gasto no laço while das 
linhas 8-9; assim, o tempo global para laço for é O(n), excluído o laço while aninhado. 

Usamos análise agregada para mostrar que o laço while demora o tempo global O(n). Para i = 0, 1,..., m, 
empurramos cada ponto p, para a pilha S exatamente uma vez. Como na análise do procedimento Murrror da Seção 
17.1, observamos que podemos extrair no máximo o mesmo número de itens que inserimos. No mínimo três pontos — 
Po P, € Pp — nunca são extraídos da pilha, de modo que, na verdade, no máximo m — 2 operações Por são executadas 
no total. Cada iteração do laço while executa uma operação Por e, portanto, há no máximo m — 2 iterações do laço 
while no total. Visto que o teste na linha 8 demora o tempo O(1), cada chamada de Por demora o tempo O(1),em <n 
— 1, o tempo total para a execução do laço while, é O(n). Assim, o tempo de execução de Gramam-Scan é O(n lg n). 


Marcha de Jarvis 


A marcha de Jarvis calcula a envoltória convexa de um conjunto O de pontos por uma técnica conhecida como 
embrulhar pacote (ou embrulhar presente). O algoritmo é executado no tempo O(nh), onde h é o número de 
vértices de CH(Q). Quando A é o(lg n), a marcha de Jarvis é assintoticamente mais rápida que a varredura de Graham. 

Intuitivamente, a marcha de Jarvis simula a ação de embrulhar o conjunto O com uma folha de papel bem esticada. 
Começamos colocando a extremidade do papel no ponto mais baixo do conjunto, isto é, no mesmo ponto p, com o 
qual iniciamos a varredura de Graham. Sabemos que esse ponto deve ser um vértice da envoltória convexa. Puxamos o 
papel para a direita para esticá-lo e depois para cima até tocar um ponto. Esse ponto também deve ser um vértice da 
envoltória convexa. Mantendo o papel esticado, continuamos desse modo ao redor do conjunto de vértices até 
voltarmos ao nosso ponto original p,. 

Em termos mais formais, a marcha de Jarvis constrói uma sequência H = (p,, p», ..., Pp - !) dos vértices de CH(O). 
Começamos com p,. Como mostra a Figura 33.9, o próximo vértice p, da envoltória convexa tem o menor ângulo polar 
em relação a p,. (No caso de empates, escolhemos o ponto mais afastado de p,.) De modo semelhante, p, tem o menor 
ângulo polar em relação a p,, e assim por diante. Quando chegamos ao vértice mais alto, digamos p, (resolvendo 
empates escolhendo o vértice mais alto, mais afastado), construímos, como mostra a Figura 33.9, a cadeia da direita 
de CH(Q). Para construir a cadeia da esquerda, começamos em p, e escolhemos p,+1 como o ponto que tem o 
menor ângulo polar em relação a p,, mas a partir do eixo x negativo. Continuamos assim, formando a cadeia da 
esquerda, tomando ângulos polares em relação ao eixo x negativo até voltarmos ao nosso vértice original p,. 

Poderíamos implementar a marcha de Jarvis em uma única varredura conceitual em torno da envoltória convexa, 
isto é, sem construir separadamente as cadeias da drreita e da esquerda. Em geral, tais implementações controlam o 
ângulo do último lado da envoltória convexa escolhido e exigem que a sequência de ângulos de lados da envoltória seja 
estritamente crescente (no intervalo de O a 2p radianos). A vantagem de construir cadeias separadas é que não 
precisamos calcular ângulos explicitamente; as técnicas da Seção 33.1 são suficientes para comparar ângulos. 

Se implementada corretamente, o tempo de execução da marcha de Jarvis é O(nh). Para cada um dos h vértices 
de CH(QO), determinamos o vértice que tem o menor ângulo polar. Cada comparação entre ângulos polares demora o 
tempo O(1), usando as técnicas da Seção 33.1. Como mostra a Seção 9.1, podemos calcular o mínimo de n valores no 
tempo O(n) se cada comparação demorar o tempo O(1). Assim, a marcha de Jarvis demora o tempo O(nh). 


Exercícios 


33.3-1 


33.3-2 


33.3-3 


33.3-4 


Prove que, no procedimento Granam-Scan, OS pontos p, e p, devem ser vértices de CH(O). 


Considere um modelo de computação que suporte adição, comparação e multiplicação, e para o qual exista 
um limite inferior (n lg n) para ordenar n números. Prove que Q(n lg n) é um limite inferior para calcular, em 
ordem, os vértices da envoltória convexa de um conjunto de n pontos em tal modelo. 


Dado um conjunto de pontos O, prove que o par de pontos mais afastados entre si deve ser de vértices de 


CH(O). 


Para um dado polígono P e um ponto q em seu contorno, a sombra de q é o conjunto de pontos r tal que o 
segmento gr está inteiramente sobre o contorno ou no interior de P. Como ilustra a Figura 33.10, um polígono 
P tem formato de estrela (ou é estrelado) se existe um ponto p no interior de P que esteja na sombra de 
todo ponto no contorno de P. O conjunto de todos esses pontos p é denominado núcleo de P. Dado um 
polígono estrelado P de n vértices especificado por seus vértices em ordem anti-horária, mostre como calcular 
CH(P) no tempo O(n). 


cadeia da , cadeia da 
esquerda : direita 


cadeia da " cadeia da 
esquerda direita 


Figura 33.9 A operação da marcha de Jarvis. O primeiro vértice escolhido é o ponto mais baixo p,. O vértice seguinte, p,, temo menor 
ângulo polar de qualquer ponto em relação a p, . Então, p, temo menor ângulo polar em relação a p, . A cadeia da direita vai até o ponto 
mais alto p; . Então, construímos a cadeia da esquerda determinando os menores ângulos polares em relação ao eixo x negativo. 


33.3-5 


No problema da envoltória convexa on-line, temos o conjunto Q de n pontos, um ponto por vez. Depois 
de receber cada ponto, calculamos a envoltória convexa dos pontos vistos até o momento. E óbvio que 
poderíamos executar a varredura de Graham uma vez para cada ponto, com tempo total de execução O(n, lg 


n). Mostre como resolver o problema da envoltória convexa on-line no tempo total O(n,). 


33.3-6 * Mostre como implementar o método incremental para calcular a envoltória convexa de n pontos, de modo 
que ele seja executado no tempo O(n lg nn). 
33.4 LocaLizanDo O PAR DE PONTOS MAIS PRÓXIMOS 


Agora, consideramos o problema de determinar o par de pontos mais próximos em um 
conjunto Q den > 2 pontos. A expressão “mais próximos” se refere à distância euclidiana habi- 


tual: a distância entre os pontos p, = (x,y) ep, = (x,y) é Jx,—x,) +(y, —y,) . Dois pontos 


no conjunto Q podem ser coincidentes e, nesse caso, a distância entre eles é zero. Esse problema 
tem aplicação, por exemplo, em sistemas de controle de tráfego. Um sistema de controle de trá- 
fego aéreo ou marítimo deve identificar os dois veículos que estão mais próximos um do outro 
para detectar colisões potenciais. 

Um algoritmo de força bruta para pares mais próximos simplesmente examina todos os pa- 
res (:)= O(n”) de pontos. Nesta seção, descreveremos um algoritmo de divisão e conquista para 
esse problema, cujo tempo de execução é descrito pela conhecida recorrência T(n) = 2T(n/2) + 
O(n). Assim, o algoritmo usa somente o tempo O(n lg n). 


O algoritmo de divisão e conquista 


Cada chamada recursiva do algoritmo toma como entrada um subconjunto P € Q e os arranjos X e Y, cada um 
contendo todos os pontos do subconjunto de entrada P. Os pontos no arranjo X são ordenados de modo que suas 
coordenadas x são monotonicamente crescentes. De modo semelhante, o arranjo Y é ordenado por coordenada y 
monotonicamente crescente. Observe que, para conseguir o limite de tempo O(n lg n) não podemos nos dar ao luxo de 
efetuar ordenação em cada chamada recursiva; se o fizéssemos, a recorrência para o tempo de execução seria T(n) = 
27(n/2) + O(n lg n), cuja solução é T(n) = O(n lg2 n). (Use a versão do método mestre dada no Exercício 4.6-2.) 
Veremos um pouco mais adiante como usar “pré-ordenação” para manter essa propriedade ordenada sem realmente 
efetuar ordenação em cada chamada recursiva. 


q 


(a) (b) 


Figura 33.10 A definição de um polígono estrelado para uso no Exercício 33.3-4. (a) Um polígono estrelado. O segmento do ponto p até 
qualquer ponto q no contomo intercepta o contorno somente emg. (b) Um polígono não estrelado. A região sombreada à esquerda é a 
sombra de q, e a região sombreada à direita é a sombra de q ”. Como essas regiões são disjuntas, o núcleo é vazio. 


Uma dada invocação recursiva com entradas P, X e Y, primeiro verifica se |P| < 3. Se for, a invocação 
simplesmente executa o método de força bruta já descrito: tentar todos os pares de pontos e retornar o par mais 
próximo. Se |P|> 3, a invocação recursiva executa o paradigma de divisão e conquista descrito a seguir. 


Divisão: Determme uma reta vertical / que divide o conjunto de pontos P em dois conjuntos P, e Pp tais que |P,| 
=| P/2,| Po|=| P|/2,todos os pontosem P, estão sobre ou à esquerda da reta / e todos os pontos em 
P, estão sobre ou à esquerda de /. Divida o arranjo X em arranjos X, e X,, que contêm os pontos de P, e Pp, 
respectivamente, ordenados por coordenada x monotonicamente crescente. De modo semelhante, divida o 
arranjo Y nos arranjos Y e Y,, que contêm os pontos de P, e P,, respectivamente, ordenados por coordenada 
) monotonicamente crescente. 


Conquista: Agora, que temos P dividido em P, e Pp, faça duas chamadas recursivas, uma para encontrar o par de 
pontos mais próximos em P, e a outra para encontrar o par de pontos mais próximos em Pp. As entradas para a 
primeira chamada são o subconjunto P, e arranjos X, e Y,; a segunda chamada recebe as entradas Pp, Xp e N. 
Sejam dt e dR as distâncias de pares mais próximos retornadas para P, e P,, respectivamente, e seja d = 
min(dL, dr). 


Combinar: O par de pontos mais próximos é o par com distância d encontrado por uma das chamadas recursivas 
ou é o par de pontos com um ponto em P, e o outro em Pp. O algoritmo determina se existe um par com um 
ponto em ?, e o outro ponto em P, cuja distância é menor que d. Observe que, se existe um par de pontos com 
distância menor que d, ambos os pontos do par devem estar a d unidades em relação à reta /. Assim, como 
mostra a Figura 33.11(a), ambos devem estar na faixa vertical de largura 2d com centro na reta /. Para encontrar 
tal par, se existir algum, o algoritmo faz o seguinte: 


1. Cria umarranjo Y, que é o arranjo Y do qual todos os pontos que não estão na faixa vertical de largura 2d foram 
elimmados. O arranjo Y é ordenado por coordenada y exatamente como Y. 


> Pp 
P, 
e : a À 
o Vs 
à ., > Pp 
” A 1 2ô ) P, «. 
] ] e I ] 
| º a ô —>»j<« ô —» 
ô | PLO Be A ) [DE ===4 pontos coincidentes, 
ô Yo | um emP,, 
: : o 6 | um em Pp 
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Figura 33.11 Conceitos fundamentais na prova de que o algoritmo de pares de pontos mais próximos precisa verificar somente sete 
pontos que vêmdepois de cada ponto no arranjo Y'. (a) Sepz E Pre pr E Prestão a menos de d unidades um do outro, eles devem 
estar dentro de um retângulo d x 2d com centro na reta 1. (b) Como quatro pontos que, aos pares, estão no mínimo a d unidades um do 
outro, podem estar dentro de um quadrado d x d. À esquerda estão quatro pontos em Pr e à direita estão quatro pontos em Pr. O 
retângulo d x 2d pode conter oito pontos se os pontos mostrados sobre a reta / são, na realidade, pares de pontos coincidentes comum 
ponto em PLe umem Pr. 


2. Para cada ponto p no arranjo Y, o algoritmo tenta encontrar pontos em Y que estejam a d unidades em relação a 
p. Como veremos em breve, apenas os sete pontos em Y que vêm depois de p precisam ser considerados. O 


aleoritmo calcula a distância de p até cada um desses sete pontos e controla a distância d' do par de pontos mais 
próximos encontrada para todos os pares de pontos em Y. 

3. Sed <d, então a faixa vertical de fato contém um par mais próximo do que aquele encontrado pelas chamadas 
recursivas. O algoritmo retorna esse par e sua distância d'. Caso contrário, o algoritmo retorna o par de pontos 
mais próximos e sua distância d encontrados pelas chamadas recursivas. 


Essa descrição omite alguns detalhes de implementação que são necessários para conseguir o tempo de execução 
O(n lg n). Depois de provar a correção do algoritmo, mostraremos como implementá-lo de modo a alcançar o limite de 
tempo desejado. 


Correção 


A correção desse algoritmo de pares mais próximos é óbvia, exceto por dois aspectos. O primeiro é que, 
interrompendo a recursão quando |P| < 3, garantimos que nunca tentaremos resolver um subproblema que consista em 
apenas um ponto. O segundo é que precisamos verificar somente os sete pontos que vêm depois de cada ponto p no 
arranjo Y. Agora, provaremos essa propriedade. 

Suponha que, em algum nível da recursão, o par de pontos mais próximos seja p, € P,epp E Pp. Assim, à 
distância d' entre p, e pp é estritamente menor que d. O ponto p, deve estar sobre ou à esquerda da reta / e a menos de 
d unidades em relação a essa reta. De modo semelhante, pp está sobre ou à direita de / e a menos de d unidades em 
relação a essa reta. Além disso, p, e pp estão a d unidades um do outro na direção vertical. Assim, como mostra a 
Figura 33.11(a), p, e pp estão dentro de um retângulo d x 2d com centro na reta /. (Também é possível que existam 
outros pontos dentro desse retângulo.) 

Mostraremos em seguida que no máximo oito pontos de P podem residir dentro desse retângulo d x 2d. 
Considere o quadrado d x d que forma a metade esquerda desse retângulo. Visto que todos os pontos dentro de P, 
estão no mínimo a d unidades um do outro, no máximo quatro pontos podem residir dentro desse quadrado; a Figura 
33.11(b) mostra como. De modo semelhante, no máximo quatro pontos em Pp, podem residir dentro do quadrado d x 
d que forma a metade direita do retângulo. Assim, no máximo oito pontos de P podem residir no interior do retângulo d 
x 2d. (Observe que, como os pontos sobre a reta / podem estar em P, ou em P,, pode haver até quatro pontos sobre 
/. Esse limite é alcançado se existem dois pares de pontos coincidentes, tais que cada par consista em um ponto de P, e 
um ponto de P,, um par esteja na interseção de / com a parte superior do retângulo e o outro par no local em que / 
intercepta a parte inferior do retângulo.) 

Agora, que já mostramos que no máximo oito pontos de P podem residir no interior do retângulo, é fácil ver que 
precisamos verificar somente os sete pontos que vêm depois de cada ponto no arranjo Y. Ainda considerando que o 
par de pontos mais próximos seja p, e pp, vamos supor, sem perda da generalidade, que p, preceda pp no arranjo Y. 
Então, mesmo que p, ocorra o mais cedo possível em Y e pp ocorra o mais tarde possível, pp está em uma das sete 
posições que vêm depois de p, . Portanto, mostramos a correção do algoritmo de pares mais próximos. 


Implementação e tempo de execução 


Como observamos, nossa meta é conseguir que a recorrência para o tempo de execução seja T(n) = 2T(n/2) + 
O(n), onde T(n) é o tempo de execução para um conjunto de n pontos. A principal dificuldade está em assegurar que 
os arranjos X,, Xp, Y e Y, que são repassados para as chamadas recursivas, sejam ordenados pela coordenada 
adequada e também que o arranjo Y seja ordenado pela coordenada y. (Observe que, se o arranjo X que é recebido 
por uma chamada recursiva já estiver ordenado, é fácil dividir o conjunto P em P, e Pp em tempo linear.) 

A observação fundamental é que, em cada chamada, desejamos formar um subconjunto ordenado de um arranjo 
ordenado. Por exemplo, uma invocação particular recebe o subconjunto P e o arranjo Y, ordenado pela coordenada y. 
Como foi particionado em P, e Pp, P precisa formar os arranjos Y, e Y, que são ordenados pela coordenada y em 


tempo linear. Podemos ver o método como o oposto do procedimento Merc: da ordenação por intercalação na Seção 
2.3.1: estamos dividindo um arranjo ordenado em dois arranjos ordenados. O pseudocódigo a seguir dá a ideia. 


1 sejam Y,[1..Y. comprimento] e Y 1. . Y. comprimento] novos arranjos 
2 Y,- comprimento = Y,. comprimento = O 
3 fori=1to Y. comprimento 
4 ifYhljepP, 
Y,. comprimento = Y,. comprimento + 1 
Y,[Y,. comprimento] = Y [i] 
else Y,. comprimento = Y ,. comprimento + 1 
YalY« comprimento] = Y [i] 


o Ja qa 


Simplesmente examinamos os pontos no arranjo Y em ordem. Se um ponto Yi] está em P,, anexamos o ponto ao final 
do arranjo Y; caso contrário, nós o anexamos ao final do arranjo Y. Um pseudocódigo semelhante funciona para 
formar os arranjos X,, Xp e Y. 

A única pergunta que resta é como obter os pontos ordenados, antes de mais nada. Nós os pré-ordenamos; isto 
é, ordenamos os pontos de uma vez por todas antes da primeira chamada recursiva. Passamos esses arranjos 
ordenados para a primeira chamada recursiva e, daí em diante, os reduzimos gradualmente por meio das chamadas 
recursivas necessárias. A pré-ordenação acrescenta um termo O(n lg n) adicional ao tempo de execução, mas agora 
cada etapa da recursão demora tempo linear, excluídas as chamadas recursivas. Assim, se T(n) é o tempo de execução 
de cada etapa recursiva e T'(n) é o tempo de execução do algoritmo inteiro, obtemos 


2T(n/2)+0O(n) sen>3, 
O(1) sen<3. 


Assim, T(n) = O(n lg n) e T(n) = O(n lg n). 


Tinj= 


Exercícios 


33.4-1 O professor Williams propõe um esquema que permite que o algoritmo de pares mais próximos verifique 
somente cinco pontos que vêm depois de cada ponto no arranjo Y”. A ideia é sempre colocar pontos sobre a 
reta /no conjunto P,. Então, não pode haver pares de pontos coincidentes sobre a reta / com um ponto em 
P, eumemP,. Assim, no máximo seis pontos podem residir no retângulo d x 2d. Qual é a falha no esquema 
do professor? 


33.4-2 Mostre que, na verdade, basta verificar somente os pontos nas cinco posições do arranjo que vêm depois de 
cada ponto no arranjo Y”. 


33.4-3 Podemos definir a distância entre dois pontos de outras modos, além do euclidiano. No plano, a distância 
Lm entre os pontos p, e p, é dada pela expressão (|x, — x,jm + |y, — ,|m )t/m. Portanto, a distância euclidiana é 
distância L,. Modifique o algoritmo de pares mais próximos para usar a distância L,, que também é conhecida 
como distância Manhattan. 


33.4-4 Dados dois pontos p, e p, no plano, a distância L entre eles é dada por max (|x, — x,|, |V, — ,|). Modifique o 
algoritmo do par mais próximo para utilizar a distância L. 


33.4-5 Suponha que O(n) dos pontos dados ao algoritmo do par mais próximo são coverticais. Mostre como 
determinar os conjuntos P, e Pp e como determinar se cada ponto de Yestá em P, ou P, de modo tal que o 
tempo de execução para o algoritmo do par mais próximo permaneça O(n lg n). 


33.4-6 Sugira uma mudança no algoritmo do par mais próximo que evite a pré-ordenação do arranjo Y, mas deixe o 


tempo de execução como O(n lg n). (Sugestão: Intercale arranjos ordenados Y e Y para formar o arranjo 
ordenado Y.) 


Problemas 


35-1 


35-2 


Camadas convexas 


Dado um conjunto O de pontos no plano, definimos as camadas convexas de OQ por indução. A primeira 
camada convexa de Q consiste nos pontos em Q que são vértices de CH(O). Para i >1, definimos O, de 
modo que consista nos pontos em O, eliminados todos os pontos em camadas convexas 1,2,...,i— 1. Então, 
a i-ésima camada convexa de O é CH(Q;) se Qi % /0 e é indefinida, caso contrário. 


a. Dê umalgoritmo de tempo O(n>) para encontrar as camadas convexas de um conjunto de n pontos. 


b. Prove que é necessário o tempo O(n lg n) para calcular as camadas convexas de um conjunto de n 
pontos com qualquer modelo de computação que exija o tempo (n lg n) para ordenar n números reais. 


Camadas máximas 


Seja O um conjunto de n pontos no plano. Dizemos que o ponto (x, y) domina o ponto (x',y) sex > x'ey 
> y'. Um ponto em O que não é dominado por nenhum outro ponto em O é denominado maximal. Observe 
que O pode conter muitos pontos máximos, que podem ser organizados em camadas maximais da seguinte 
maneira. A primeira camada maximal L, é o conjunto de pontos máximais em Q. Para i > 1, a i-ésima camada 
a 
ra A ado 

maximal i é o conjunto de pontos maximais em pe 

Suponha que Q tenha k camadas máximas não vazias e seja y, a coordenada y do ponto mais à esquerda em 
L, para i= 1,2, ..., k. Por enquanto, supomos que não haja dois pontos em O com a mesma coordenada x ou 
y. 


a. Mostre que y >)» >... > ye. 


Considere um ponto (x, y) que esteja à esquerda de qualquer ponto em O e para o qual y seja distinto da 
coordenada y de qualquer ponto em O. Sega O'=O U (x,y). 


b. Sejaj o índice mínimo tal que y; < y, a menos que y < x, caso em que fazemos j = k + 1. Mostre que as 
camadas maximais de Q' são as seguintes. 


* Sej<k, então as camadas maximais de O' são as mesmas que as camadas maximais de O, exceto que 
L, também inclui (x, y) como seu novo ponto mais à esquerda. 


* Sej=k+1, então as primeiras k camadas máximas de Q' são as mesmas que as de O mas, além disso, 
O tem uma (k + 1)-ésima camada máxima não vazia: Le + 1 = f(x, ))+. 


c. Descreva um algoritmo de tempo O(n lg n) para calcular as camadas maximais de um conjunto O de n 
pontos. (Sugestão: Movimente uma linha de varredura da direita para a esquerda.) 


d. Surge alguma dificuldade se agora permitirmos que pontos de entrada tenham a mesma coordenada x ou 
y? Sugira um modo de solucionar tais problemas. 


35-3 


35-4 


35-5 


Caça-fantasmas e fantasmas 


Um grupo de n caça-fantasmas está perseguindo n fantasmas. Cada caça-fantasmas está armado com um 
pacote de prótons, que dispara um feixe em um fantasma, erradicando-o. Um feixe segue em linha reta e 
termina quando atinge o fantasma. Os caça-fantasmas decidem adotar a estratégia a seguir. Eles formarão 
pares com os fantasmas, constituindo n pares caça-fantasma e então, simultaneamente, cada caça-fantasmas 
dispara um feixe no fantasma que escolheu. Como sabemos, é muito perigoso permtir que os feixes se 
cruzem e, assim, os caça-fantasmas devem escolher pares de modo que nenhum feixe cruze com outro. 


Suponha que a posição de cada caça-fantasmas e cada fantasma sejaum ponto fixo no plano e que não haja 
três posições que sejam colineares. 


a. Demonstre que existe uma reta que passa por um caça-fantasmas e um fantasma tal que o número de 
caça-fantasmas em um lado da reta seja igual ao número de fantasmas no mesmo lado. Descreva como 
determinar tal reta no tempo O(n lg n). 


b. Dê um algoritmo de tempo O(n-lg n) para formar os pares caça-fantasmas/fantasmas de tal modo que 
nenhum feixe cruze outro. 


Pega-varetas 


O professor Charon tem um conjunto de n varetas, empilhadas umas sobre as outras em alguma configuração. 
Cada vareta é especificada por suas extremidades e cada extremidade é uma tripla ordenada que dá suas 
coordenadas (x, y, z). Nenhuma vareta está na vertical. Ele deseja retirar todas as varetas, uma de cada vez, 
sob a condição de que ele só pode retirar uma vareta se não houver outra vareta sobre ela. 


a. Dê um procedimento que toma duas varetas a e b e informa se a está acima, abaixo ou não está 
relacionada com ». 


b. Descreva um algoritmo eficiente que determine se é possível retirar todas as varetas e, se isso for 
possível, dê uma ordem válida para a retirada das varetas. 


Distribuições de envoltórias esparsas 


Considere o problema de calcular a envoltória convexa de um conjunto de pontos no plano que tenham sido 
extraídos de acordo com alguma distribuição aleatória conhecida. Às vezes, o número de pontos, ou tamanho, 
da envoltória convexa de n pontos extraídos de tal distribuição tem esperança O(n,-) para alguma constante 
> 0. Dizemos que tal distribuição é de envoltória esparsa. As distribuições de envoltória esparsa incluem o 
seguinte: 


e Pontos extraídos uniformemente de um disco de raio unitário. A envoltória convexa tem tamanho 
esperado Q(n15). 


* Pontos extraídos uniformemente do interior de um polígono convexo com k lados, para qualquer 
constante k. A envoltória convexa tem tamanho esperado Q(lg nn). 


* Pontos extraídos de acordo com uma distribuição normal bidimensional. A envoltória convexa tem o 
tamanho esperado QNlIg n). 


a. Dados dois polígonos convexos com nie n-vértices, respectivamente, mostre como calcular a envoltória 
convexa de todos os n1+ n>pontos no tempo O(n: + n2). (Os polígonos podem se sobrepor.) 


pb. Mostre como calcular a envoltória convexa de um conjunto de n pontos extraídos independentemente de 
acordo com uma distribuição de envoltórias esparsas no tempo do caso médio O(n). (Sugestão: 
Determine recursivamente as envoltórias convexas dos primeiros n/2 pontos e dos n/2 pontos seguintes e 
depois combine os resultados.) 


NorTas DO CAPÍTULO 


Este capítulo mal arranha a superficie dos algoritmos e técnicas de geometria computacional. Livros sobre 
geometria computacional incluem os de Preparata e Shamos [282], Edelsbrunner [99] e O"Rourke [269]. 

Embora a geometria tenha sido estudada desde a Antiguidade, o desenvolvimento de algoritmos para problemas 
geométricos é relativamente novo. Preparata e Shamos observam que a primeira noção da complexidade de um 
problema foi dada por FE. Lemoine em 1902. Ele estava estudando construções euclidianas — aquelas que usam uma 
régua e um compasso — e criou um conjunto de cinco primitivas: colocar uma perna do compasso sobre um ponto 
dado, colocar uma perna do compasso sobre uma reta dada, desenhar um círculo, passar a borda da régua por um 
ponto dado e desenhar uma reta. Lemome estava interessado no número de primitivas necessárias para executar uma 
determinada construção; ele denominou essa quantidade “simplicidade” da construção. 

O algoritmo da Seção 33.2, que determina se quaisquer segmentos se interceptam, se deve a Shamos e Hoey 
Bis. 

A versão original da varredura de Graham é dada por Graham [150]. O algoritmo de embrulhar pacote se deve a 
Jarvis [189]. Usando um modelo de computação de árvore de decisão, Yao [359] provou o limite inferior de O(n lg n) 
para o tempo de execução de qualquer algoritmo de envoltórias convexas. Quando o número de vértices h da 
envoltória convexa é levado em conta, o algoritmo de poda e busca de Kirkpatrick e Seidel [206], que demora o 
tempo On lg A), é assintoticamente ótimo. 

O algoritmo de divisão e conquista de tempo O(n lg n) para determinar o par de pontos mais próximo foi criado 
por Shamos e aparece em Preparata e Shamos [282]. Preparata e Shamos também mostram que o algoritmo é 
assintoticamente ótimo em um modelo de árvore de decisão. 


iNa realidade, o produto cruzado é um conceito tridimensional. É um vetor perpendicular a p1 e p2, de acordo com a “regra da mão 
direita” e cuja magnitude é |r1y2 - x2 y1]. Contudo, neste capítulo, achamos conveniente tratar o produto cruzado apenas como o valor 
XIV2-X2 1. 

2 Se permitirmos que três segmentos se interceptem no mesmo ponto, pode haver um segmento c interveniente que intercepta a e b no 
ponto p. Isto é, podemos ter a <wc e c <wb para todas as linhas de varredura w à esquerda de p para as quais a <wb. O Exercício 33.2-8 
pede que você mostre que Any-Segments-Intersect é correto ainda que três segmentos se interceptemno mesmo ponto. 


3 4 ProsLemas NP-comPpLETOS 


Quase todos os algoritmos que estudamos até aqui são algoritmos de tempo polinomial: para entradas de 
tamanho n, seu tempo de execução do pior caso é O(n,) para alguma constante k. É natural imaginar que todos os 
problemas podem ser resolvidos em tempo polinomial. A resposta é não. Por exemplo, existem problemas, como o 
famoso “problema da parada” de Turing, que não podem ser resolvidos por qualquer computador, não importa por 
quanto tempo seja executado. Também existem problemas que podem ser resolvidos, mas não no tempo O(n,) para 
qualquer constante k. Em geral, pensamos que problemas que podem ser resolvidos por algoritmo de tempo polinomial 
são tratáveis, ou fáceis, e que problemas que exigem tempo superpolinomial são intratáveis ou dificeis. 

Porém, o assunto deste capítulo é uma classe interessante de problemas, denominados problemas “NP- 
completos”, cujo status é desconhecido. Ainda não foi descoberto nenhum algoritmo de tempo polinomial para um 
problema NP-completo e ninguém ainda conseguiu provar que não pode existir nenhum algoritmo de tempo polinomial 
para nenhum deles. Essa questão denominada P £ NP continua sendo um dos mais profundos e intrigantes problemas 
de pesquisa ainda em aberto na teoria da ciência da computação, desde que foi proposto pela primeira vez em 1971. 

Vários problemas NP-completos são particularmente torturantes porque, à primeira vista, parecem ser semelhantes 
a problemas que sabemos resolver em tempo polinomial. Em cada um dos pares de problemas a seguir, um deles pode 
ser resolvido em tempo polinomial e o outro é NP-completo, mas a diferença entre eles parece insignificante: 


Caminhos simples mínimos e caminhos simples de comprimento máximo: No Capítulo 24, vimos que até 
mesmo com pesos de arestas negativos podemos encontrar caminhos mínimos que partem de uma única origem 
em um grafo dirigido G = (V, E) no tempo O(VE). Contudo, determinar o caminho simples de comprimento 
máximo entre dois vértices é difícil Simplesmente determinar se um grafo contém um caminho simples com pelo 
menos um determinado número de arestas é NP-completo. 


Passeio de Euler e ciclo hamiltoniano: Um passeio de Euler de um grafo conexo dirigido G = (V, E) é um 
ciclo que percorre cada aresta de G exatamente uma vez, embora possa visitar cada vértice mais de uma vez. 
Pelo Problema 22-3, podemos determinar se um grafo tem um passeio de Euler no tempo de apenas O(E) e, de 
fato, podemos encontrar as arestas do passeio de Euler no tempo O(E). Um ciclo hamiltoniano de um grafo 
dirigido G = (V, E) é um ciclo simples que contém cada vértice em V. Determinar se um grafo dirigido tem um 
ciclo hamiltoniano é NP-completo. (Mais adiante neste capítulo provaremos que determinar se um grafo não 
dirigido tem um ciclo hamiltoniano é NP-completo.) 


Satis fazibilidade 2-CNF e satisfazibilidade 3-CNF: Uma fórmula booleana contém variáveis cujos valores são 
O ou 1; conectivos booleanos como A (AND), V (OR) e = (NOT); e parênteses. Uma fórmula booleana é 
satisfazível se existe alguma atribuição dos valores O e 1 às suas variáveis que faça com que ela seja avaliada 
como 1. Definiremos os termos em linguagem mais formal mais adiante neste capítulo; porém, informalmente, 
uma fórmula booleana está em forma normal k-conjuntiva, ou k-CNF, se for o AND de cláusulas OR de 
exatamente k variáveis ou de suas negações. Por exemplo, a fórmula booleana (x, V —x,) À (x, V —x5;) À 
(x, V —x5) está em 2-CNF. (Ela tem a atribuição que satisfaz x, = 1, x, = 0, x, = 1.) Embora possamos 


determinar em tempo polinomial s uma fórmula 2-CNF é satisfazível, veremos mais adiante neste capítulo que 
determinar se uma fórmula 3-CNF é satisfazível é NP-completo. 


NP-completude e as classes Pe NP 


Ao longo deste capítulo, nos referiremos a três classes de problemas: P, NP e NPC, sendo a última classe a dos 
problemas NP-completos. Aqui, as descrevemos de um modo informal; mais adiante, as definiremos em linguagem mais 
formal. 

A classe P consiste nos problemas que podem ser resolvidos em tempo polinomial. Mais especificamente, são 
problemas que podem ser resolvidos no tempo O(n,) para alguma constante k, onde n é o tamanho da entrada para o 
problema. A maioria dos problemas examinados em capítulos anteriores pertence à classe P. 

A classe NP consiste nos problemas que são “verificáveis” em tempo polinomial. O que significa um problema ser 
verificável? Se tivéssemos algum tipo de “certificado” de uma solução, poderíamos verificar se o certificado é correto 
em tempo polinomial para o tamanho da entrada para o problema. Por exemplo, no problema do ciclo hamiltoniano, 
dado um grafo dirigido G = (V, E), um certificado seria uma sequência (v,, v,, Va, =, V|M) de |V] vértices. É fácil 
verificar em tempo polinomial que (v,, v+) E E parai= 1,2,3,...,|V|— 1 e também que (v|7, v,) E E. Como outro 
exemplo; para satisfazibilidade 3-CNF um certificado seria uma atribuição de valores a variáveis. Poderíamos verificar 
em tempo polinomial que essa atribuição satisfaz a fórmula booleana. 

Qualquer problema em P também está em NP visto que, se um problema está em P, podemos resolvê-lo em tempo 
polinomial sem nem mesmo ter um certificado. Formalizaremos essa noção mais adiante neste capítulo mas, por 
enquanto, podemos acreditar que PC NP. A questão em aberto é se P é ou não um subconjunto próprio de NP. 

Informalmente, um problema está na classe NPC — e nos referiremos a ele como um problema NP-completo — 
se ele está em NP e é tão “dificil” quanto qualquer problema em NP. Definiremos formalmente o que significa ser tão 
difícil quanto qualquer problema em NP mais adiante neste capítulo. Enquanto isso, afirmaremos sem provar que, se 
qualquer problema NP-completo pode ser resolvido em tempo polinomial, então todo problema em NP tem um 
algoritmo de tempo polinomial. A maioria dos teóricos da ciência da computação acredita que os problemas NP- 
completos sejam intratáveis já que, dada a ampla faixa de problemas NP-completos que foram estudados até hoje — 
sem que ninguém tenha descoberto uma solução de tempo polinomial para nenhum deles — seria verdadeiramente 
espantoso se todos eles pudessem ser resolvidos em tempo polinomial. Ainda assim, dado o esforço dedicado até 
agora para provar que os problemas NP-completos são intratáveis — sem um resultado conclusivo — não podemos 
descartar a possibilidade de que os problemas NP-completos são de fato resolvíveis em tempo polinomial. 

Para se tornar um bom projetista de algoritmos, você deve entender os rudimentos da teoria da NP-completude. 
Se puder determinar que um problema é NP-completo, estará dando uma boa evidência de sua intratabilidade. Então, 
como engenheiro, seria melhor empregar seu tempo no desenvolvimento de um algoritmo de aproximação (veja o 
Capítulo 35) ou resolvendo um caso especial tratável, em vez de procurar um algoritmo rápido que resolva o problema 
exatamente. Além disso, muitos problemas naturais e interessantes que à primeira vista não parecem mais dificeis que 
ordenação, busca de grafos ou fluxo em rede são de fato NP-completos. Portanto, é importante se familiarizar com 
essa classe notável de problemas. 


Como mostrar que um problema é NP-completo: uma visão geral 


As técnicas que empregamos para mostrar que um determinado problema é NP-completo são fundamentalmente 
diferentes das técnicas usadas em quase todo este livro para projetar e analisar algoritmos. Quando dizemos que um 
problema é NP-completo, fica subentendido que trata-se de um problema difícil de resolver (ou ao menos que achamos 
que é difícil), e não de um problema fácil de resolver. Não estamos tentando provar a existência de um algoritmo 
eficiente, mas que provavelmente não existe nenhum algoritmo eficiente. Por essa perspectiva, as provas da NP- 
completude são um pouco parecidas com a prova na Seção 8.1 de um limite mferior de tempo (n lg n) para qualquer 


algoritmo de ordenação por comparação; contudo, as técnicas específicas usadas para mostrar a NP-completude são 
diferentes do método da árvore de decisão usado na Seção 8.1. 
Contamos com três conceitos fundamentais para mostrar que um problema é NP-completo: 


Problemas de decisão versus problemas de otimização 


Muítos problemas de interesse são problemas de otimização, para os quais cada solução possível (isto é, 
“válida” tem um valor associado e para os quais desejamos encontrar uma solução viável com o melhor valor. Por 
exemplo, em um problema que denominamos SHORTES'E PATH, temos um grafo não dirigido G e vértices u e v, e 
desejamos encontrar o caminho de u a v que utiliza o menor número de arestas. Em outras palavras, SHORTEST- 
PATH é o problema do caminho mínimo para um par em um grafo não ponderado e não dirigido). Porém, a NP- 
completude não se aplica diretamente a problemas de otimização, mas a problemas de decisão, para os quais a 
resposta é simplesmente “sim” ou “não” (ou, em linguagem mais formal, “1” ou “0”. 

Embora problemas NP-completos estejam confinados ao reino dos problemas de decisão, podemos tirar proveito 
de uma relação conveniente entre problemas de otimização e problemas de decisão. Normalmente, podemos expressar 
um determinado problema de otimização como um problema de decisão relacionado impondo um limite para o valor a 
ser otimizado. Por exemplo, um problema de decisão relacionado com SHORTES T-PATH é PATH: dado um grafo 
dirigido G, vértices u e v, e um inteiro k, existe um caminho de u a v que consiste em no máximo k arestas? 

A relação entre um problema de otimização e seu problema de decisão relacionado age a nosso favor quando 
tentamos mostrar que o problema de otimização é “dificil”. Isso porque o problema de decisão é de certo modo “mais 
fáciP” ou, ao menos, “não é mais dificil”. Como um exemplo específico, podemos resolver PATH resolvendo 
SHORTEST-PATH e depois comparando o número de arestas no caminho mínimo encontrado com o valor do 
parâmetro k do problema de decisão. Em outras palavras, se um problema de otimização é fácil, seu problema de 
decisão relacionado também é fácil Em termos mais relevantes para a NP-completude, se pudermos apresentar 
evidências de que um problema de decisão é dificil, também apresentamos evidências de que seu problema de 
otimização relacionado é dificil. Assim, embora restrinja a atenção a problemas de decisão, muitas vezes, a teoria da 
NP-completude também tem implicações para problemas de otimização. 


Reduções 


Essa ideia de mostrar que um problema não é mais dificil ou não é mais fácil que outro se aplica até mesmo quando 
ambos são problemas de decisão. Tiramos proveito dessa ideia em quase todas as provas da NP-completude, como 
veremos em seguida. Vamos considerar um problema de decisão 4, que gostaríamos de resolver em tempo polinomial. 
Denominamos a entrada para um determinado problema por instância desse problema; por exemplo, em PATH, uma 
instância seria um grafo G dado, vértices específicos u e v de G e um determinado inteiro k. Agora, suponha que já 
sabemos como resolver um problema de decisão diferente, B, em tempo polinomial. Finalmente, suponha que temos um 
procedimento que transforma qualquer instância a de 4 em alguma instância b de B com as seguintes características: 


instância a tempo polinomial instância 8 tempo polinomial sim 
de A algoritmo de redução algoritmo de decisão B -— não 


tempo polinomial de algoritmo de decisão A 


Figura 34.1 Como usar umalgoritmo de redução de tempo polinomial para resolver um problema de decisão 4 em tempo polinomial, 
dado um algoritmo de decisão de tempo polinomial para um outro problema B. Em tempo polinomial, transformamos uma instância a de 4 
em uma instância b de B, resolvemos B emtempo polinomial e usamos a resposta para b como a resposta para a. 


*— Atransformação demora tempo polinomial. 
* As respostas são as mesmas. Isto é, a resposta para a é “sim” se e somente se a resposta para 5 também é “sim”. 

Denominamos tal procedimento algoritmo de redução de tempo polinomial e, como mostra a Figura 34.1, ele 
proporciona um meio para resolver o problema 4 em tempo polinomial: 

1. Dada uma instância a do problema 4, use um algoritmo de redução de tempo polinomial para transformá-la em 

uma instância b do problema B. 

2. Execute o algoritmo de decisão de tempo polinomial para B para a instância ». 
3. Use a resposta de b como a resposta para a. 

Desde que cada uma dessas etapas demore tempo polinomial, as três juntas também demoram um tempo 
polinomial e, assim, temos um modo de decidir para a em tempo polinomial. Em outras palavras, “reduzindo” a solução 
do problema 4 à solução do problema B, usamos a “facilidade” de B para provar a “facilidade” de 4. 

Lembrando que a NP-completude consiste em mostrar o quanto um problema é dificil, em vez de mostrar o quanto 
ele é fácil, usamos reduções de tempo polinomial ao contrário para mostrar que um problema é NP-completo. Vamos 
avançar com essa ideia e mostrar como poderíamos usar reduções de tempo polinomial para demonstrar que não pode 
existir nenhum algoritmo de tempo polinomial para um determinado problema B. Suponha que tenhamos um problema 
de decisão 4 para o qual já sabemos que não pode existir nenhum algoritmo de tempo polinomial. (Não vamos nos 
preocupar por enquanto com a maneira de encontrar tal problema 4.) Suponha ainda que tenhamos uma redução de 
tempo polinomial que transforma instâncias de 4 em instâncias de B. Agora podemos usar uma prova simples por 
contradição para mostrar que não pode existir nenhum algoritmo de tempo polinomial para B. Suponha o contrário: isto 
é, suponha que B tenha um algoritmo de tempo polinomial. Então, usando o método mostrado na Figura 34.1 teríamos 
um modo de resolver o problema 4 em tempo polinomial, o que contradiz nossa hipótese da inexistência de algoritmo 
de tempo polinomial para 4. 

Para a NP-completude não podemos supor que não exista absolutamente nenhum algoritmo de tempo polinomial 
para o problema 4. Contudo, a metodologia da prova é semelhante no sentido de que provamos que o problema B é 
NP-completo considerando que o problema 4 também é NP-completo. 


Um primeiro problema NP-completo 


Como a técnica de redução se baseia em ter um problema que já sabemos ser NP-completo para provar que um 
problema diferente é NP-completo, precisamos de um “primeiro” problema NP-completo. O problema que usaremos é 
o da satisfazibilidade de circuitos, no qual temos um circuito combinacional booleano composto por portas AND, OR e 
NOT, e desejamos saber se existe algum conjunto de entradas booleanas para esse circuito que faça sua saída ser 1. 
Provaremos que esse primeiro problema é NP-completo na Seção 34.3. 


Resumo do capítulo 


Este capítulo estuda os aspectos da NP-completude que estão mais diretamente relacionados com a análise de 
algoritmos. Na Seção 34.1, formalizamos nossa noção de “problema” e definimos a classe de complexidade P de 
problemas de decisão que podem ser resolvidos em tempo polinomial. Também veremos como essas noções se 
encaixam na estrutura da teoria de linguagens formais. A Seção 34.2 define a classe NP de problemas de decisão cujas 
soluções podem ser verificadas em tempo polinomial. Também propõe formalmente a questão P £ NP. 

A Seção 34.3 mostra que podemos relacionar problemas por meio de “reduções” de tempo polinomial, define NP- 
completude e esboça uma prova de que um problema, denominado “satisfazibilidade de circuitos”, é NP-completo. 
Depois de encontrado um problema NP-completo, mostramos na Seção 34.4 como provar que outros problemas são 
NP-completos de um modo muito mais simples pela metodologia de reduções. Ilustramos essa metodologia mostrando 
que dois problemas de satisfazibilidade de fórmulas são NP-completos. Com reduções adicionais, mostramos na Seção 
34.5 que vários outros problemas são NP-completos. 


34.1 Tempo poLINOMIAL 


Começamos nosso estudo de NP-completude formalizando nossa noção de problemas resolvíveis em tempo 
polinomial. Em geral, consideramos que esses problemas são tratáveis, mas por razões filosóficas, e não matemáticas. 
Podemos oferecer três argumentos de sustentação. 

O primeiro é que, embora seja razoável considerar como intratável um problema que exige o tempo Q(n 59), um 
número bem pequeno de problemas práticos exige tempo da ordem de um polinômio de grau tão alto. Os problemas 
calculáveis em tempo polinomial encontrados na prática normalmente exigem um tempo muito menor. A experiência 
mostrou que, tão logo seja descoberto o primeiro algoritmo de tempo polinomial para um problema, em geral algoritmos 
mais eficientes vêm logo atrás. Ainda que o melhor algoritmo atual para um problema tenha um tempo de execução de 
Q(n 00), é provável que um algoritmo com um tempo de execução muito melhor logo seja descoberto. 

O segundo é que, para muitos modelos razoáveis de computação, um problema que pode ser resolvido em tempo 
polinomial em um modelo pode ser resolvido em tempo polinomial em outro modelo. Por exemplo, a classe de 
problemas resolvíveis em tempo polinomial pela máquina de acesso aleatório serial usada na maior parte deste livro é 
igual à classe de problemas resolvíveis em tempo polinomial em máquinas abstratas de Turing.! Também é igual à classe 
de problemas resolvíveis em tempo polinomial em um computador paralelo quando o número de processadores cresce 
polinomialmente com o tamanho da entrada. 

O terceiro é que a classe de problemas resolvíveis em tempo polinomial tem propriedades de fechamento 
interessantes, já que os polinômios são fechados por adição, multiplicação e composição. Por exemplo, se a saída de 
um algoritmo de tempo polinomial é alimentada na entrada de outro, o algoritmo composto é polinomial. O Exercício 
34.1-5 pede para mostrar que, se um algoritmo faz um número constante de chamadas a sub-rotinas de tempo 
polinomial e realiza uma quantidade adicional de trabalho que também leva tempo polinomial, então o tempo de 
execução do algoritmo composto é polinomial. 


Problemas abstratos 


Para entender a classe de problemas de tempo polinomial resolvíveis, primeiro devemos ter uma noção formal do 
que seja um “problema”. Definimos um problema abstrato OQ como uma relação binária entre um conjunto 7 de 
instâncias de problemas e um conjunto S de soluções de problemas. Por exemplo, uma instância de SHORTES E 
PATH é uma tripla que consiste em um grafo e dois vértices. Uma solução é uma sequência de vértices no grafo, talvez 
com a sequência vazia denotando que não existe nenhum caminho. O problema SHORTES'TEPATH em si é a relação 
que associa cada instância de um grafo e dois vértices a um caminho mínimo no grafo que liga os dois vértices. Visto 
que caminhos mínimos não são necessariamente únicos, uma dada instância de problema pode ter mais de uma solução. 

Essa formulação de um problema abstrato é mais geral que o necessário para nossos propósitos. Como vimos 
antes, a teoria de NP-completude restringe a atenção a problemas de decisão: aqueles que têm uma solução sim/não. 
Nesse caso, podemos ver um problema de decisão abstrato como uma finção que mapeia o conjunto de instâncias 7 
para o conjunto de soluções (0, 14. Por exemplo, um problema de decisão relacionado com SHORTEST-PATH é o 
problema PATH que vimos antes. Se i = (G, u, v, k) é uma instância do problema de decisão PATH, então PATH(i) = 1 
(sim) se um caminho mínimo de u até v tem no máximo k arestas, e PATH(i) = O (não) em caso contrário. Muitos 
problemas abstratos não são problemas de decisão, mas sim problemas de otimização, que exigem que algum valor 
seja minimizado ou maximizado. Porém, como vimos anteriormente, em geral podemos reformular um problema de 
otimização como um problema de decisão que não é mais difícil que o primeiro. 


Codificações 


Para um programa de computador resolver um problema abstrato, temos de representar as instâncias do problema 
de um modo que o programa entenda. Uma codificação de um conjunto S de objetos abstratos é um mapeamento e 


de S para o conjunto de cadeias binárias.2 Por exemplo, todos conhecemos a codificação dos números naturais = (0, 
1,2,3,4,...; como as cadeias (0, 1, 10, 11, 100, ...!. Usando essa codificação, e(17) = 10001. Se você já viu 
representações de computador para caracteres do teclado, provavelmente já viu o código ASCII, pelo qual a 
codificação de A é 1000001. Podemos codificar um objeto composto como uma cadeia binária combinando as 
representações de suas partes constituintes. Polígonos, grafos, funções, pares ordenados, programas — todos podem 
ser codificados como cadeias binárias. 

Assim, um algoritmo de computador que “resolve” algum problema de decisão abstrato na realidade toma uma 
codificação de uma instância de problema como entrada. Denominamos por problema concreto um problema cujo 
conjunto de instâncias é o conjunto de cadeias binárias. Dizemos que um algoritmo resolve um problema concreto no 
tempo O(T(n)) se, dada uma instância i do problema de comprimento n = lil, o algoritmo pode produzir a solução no 
tempo máximo O(T(n)).3 Portanto, um problema concreto é resolvível em tempo polinomial se existe um algoritmo 
para resolvê-lo no tempo O(n,) para alguma constante k. 

Agora podemos definr formalmente a classe de complexidade P como o conjunto de problemas de decisão 
concretos resolvíveis em tempo polinomial. 

Podemos usar codificações para mapear problemas abstratos para problemas concretos. Dado um problema de 
decisão abstrato O que mapeia um conjunto de instâncias 1 para £0, 1), uma codificação e: 7 > 10, 1)* pode induzir 
um problema de decisão concreto relacionado, que denotamos por e(Q).4 Se a solução para uma instância de problema 
abstrato i € Té O(i) E 10, 1!, então a solução para a instância de problema concreto e (i) E 10, 11* também é Oli). 
Como detalhe técnico, algumas cadeias binárias poderiam representar uma instância de problema abstrato que não é 
significativa. Por conveniência, convencionamos que qualquer cadeia desse tipo mapeia arbitrariamente para 0. Assim, o 
problema concreto produz as mesmas soluções que o problema abstrato para instâncias de cadeias binárias que 
representam as codificações de instâncias do problema abstrato. 

Gostaríamos de estender a definição de resolvibilidade em tempo polinomial de problemas concretos para 
problemas abstratos usando codificações como ponte, mas gostaríamos também que a definição fosse independente de 
qualquer codificação específica. Isto é, a eficiência da solução de um problema não deve depender do modo como o 
problema é codificado. Infelizmente, ela depende bastante da codificação. Por exemplo, suponha que um inteiro k deva 
ser dado como a única entrada para um algoritmo e suponha que o tempo de execução do algoritmo seja Q(k). Se o 
inteiro k é dado em unário uma cadeia de k “Is” —, então o tempo de execução do algoritmo é O(n) para entradas de 
comprimento n, que é tempo polinomial. Todavia, se usarmos a representação binária mais natural do inteiro k, o 
comprimento da entrada é = n lg k + 1. Nesse caso, o tempo de execução do algoritmo é Q(k) = Q(2,), que é 
exponencial em relação ao tamanho da entrada. Assim, dependendo da codificação, o algoritmo é executado em tempo 
polinomial ou em tempo superpolinomial. 

A codificação de um problema abstrato é muito importante para nossa compreensão do tempo polinomial. Na 
realidade, não podemos nem falar em resolver um problema abstrato sem primeiro especificar uma codificação. Apesar 
disso, na prática, se eliminarmos codificações “dispendiosas” como as unárias, a codificação propriamente dita de um 
problema fará pouca diferença para o problema ser resolvido ou não em tempo polinomial. Por exemplo, representar 
interos em base 3 em vez de em base 2 (binária) não tem nenhum efeito sobre a solução desse problema em tempo 
polinomial ou não, já que um inteiro representado em base 3 pode ser convertido em um inteiro representado em base 2 
em tempo polinomial. 

Dizemos que uma função f: 10, 1)* > (0, 1!* é calculável em tempo polinomial se existe um algoritmo de 
tempo polinomial 4 que, dada qualquer entrada x & (0, 1)*, produz como saída f(x). Para algum conjunto 7 de 
instâncias de problemas, dizemos que duas codificações e, e e, são polinomialmente relacionadas se existem duas 
funções calculáveis em tempo polinomial /,, e f,, tais que, para qualquer i & /, temos f,(e,(1)) = eli) e Si(es(i)) = 
e,(i).5 Isto é, um algoritmo de tempo polinomial pode calcular a codificação e,(i) pela codificação e,(i) e vice-versa. Se 
duas codificações e, e e, de um problema abstrato são polinomialmente relacionadas, resolver esse problema em tempo 
polinomial ou não independe da codificação que usamos, como mostra o lema a seguir. 


Lema 34.1 


Seja O um problema de decisão abstrato para um conjunto de instâncias 7 e sejam e, e e, codificações 
polinomialmente relacionadas em 7. Então, e (0) E P se e somente se e(O0) E P. 


Prova Basta provar o enunciado na forma em que está, já que a forma inversa é simétrica. Portanto, suponha que e, 
(O) possa ser resolvida no tempo O(n,) para alguma constante k. Além disso, suponha que, para qualquer instância de 
problema i, a codificação e,(i) possa ser calculada pela codificação e(i) no tempo O(n.) para alguma constante c, onde 
n = les(i)]. Para resolver o problema e(Q), para a entrada e(i), primeiro calculamos e,(i) e depois executamos o 
algoritmo para e, (0) eme (i). Quanto tempo isso demora? Converter codificações demora o tempo O(n,) e, portanto, 
lex()| = O(n,), já que a saída de um computador serial não pode ser mais longa que seu tempo de execução. Resolver o 
problema para e (i) demora o tempo Olfe(i)| *) = O(n,,), que é polinomial, já que tanto c quanto k são constantes. 


Assim, codificar as instâncias de um problema em binário ou em base 3 não afeta sua “complexidade”, isto é, se ele 
pode ser resolvido em tempo polinomial ou não; porém, se as instâncias forem codificadas em unário, sua complexidade 
pode mudar. Para que possamos conversar independentemente da codificação, vamos supor em geral que instâncias de 
problemas estão codificadas em qualquer forma razoável e concisa, a menos que digamos especificamente que não. 
Para sermos exatos, vamos supor que a codificação de um inteiro está polinomialmente relacionada com sua 
representação binária e que a codificação de um conjunto finito está polinomialmente relacionada com a sua codificação 
por meio de uma lista de seus elementos, entre chaves e separados por vírgulas. (ASCII é um desses esquemas de 
codificação.) Com tal codificação “padrão” em mãos, podemos derivar codificações razoáveis de outros objetos 
matemáticos, como tuplas, grafos e fórmulas. Para denotar a codificação-padrão de um objeto, colocaremos o objeto 
entre colchetes angulares. Assim, (G) denota a codificação padrão de um grafo G. 

Desde que utilizemos implicitamente uma codificação que está polinomialmente relacionada com essa codificação- 
padrão, podemos conversar diretamente sobre problemas abstratos sem fazer referência a qualquer codificação 
particular, sabendo que a resolução de um problema abstrato em tempo polinomial não é afetada pela escolha da 
codificação. Daqui por diante, vamos supor, em geral, que todas as instâncias de problemas são cadeias binárias 
codificadas segundo a codificação-padrão, a menos que digamos explicitamente que não. Além disso, normalmente 
negligenciaremos a distinção entre problemas abstratos e concretos. Contudo, o leitor deve ficar atento aos problemas 
que surgem na prática, nos quais uma codificação-padrão não é óbvia e a codificação faz diferença. 


Um arcabouço de linguagens formais 


Focalizar problemas de decisão nos permite tirar proveito do mecanismo da teoria das linguagens formais, portanto 
faremos aqui uma revisão de algumas definições dessa teoria. Um alfabeto S é um conjunto finito de símbolos. Uma 
linguagem L sobre S é qualquer conjunto de cadeias formadas por símbolos extraídos de S. Por exemplo, se S = £0, 
1,0 conjunto L = (10, 11, 101, 111, 1011, 1101, 10001, ...! é a Imnguagem de representações binárias de números 
primos. Denotamos a cadeia vazia por , a linguagem vazia por /0 e a linguagem de todas as cadeias sobre S por S*. 
Por exemplo, se S = (0, 1!, então S* = £,0, 1, 00, 01, 10, 11, 000, ...; é o conjunto de todas as cadeias binárias. 
Toda linguagem L sobre S é um subconjunto de S*. 

Podemos efetuar uma variedade de operações em linguagens. Operações da teoria dos conjuntos, como união e 
interseção, decorrem diretamente das definições da teoria dos conjuntos. Definimos o complemento de L por L = S* 
—L. A concatenação LL, de duas linguagens L, e L, é a linguagem 


L=RLILELerEL): 


O fechamento ou estrela de Kleene de uma linguagem L é a linguagem 


L*=(SSULUDUDU.., 


onde L, é a linguagem obtida pela concatenação de L com ela mesma k vezes. 

Do ponto de vista da teoria das linguagens, o conjunto de instâncias para qualquer problema de decisão O é 
simplesmente o conjunto S*, onde S = (0, 14. Visto que O é completamente caracterizado pelas instâncias de problema 
que produzem uma resposta 1 (sim), podemos ver Q como uma linguagem L em S = 10, 1!, onde 


L=(xeZ*:Ot)=1). 


Por exemplo, o problema de decisão PATH tem a linguagem correspondente 


PATH = ((G,u,v,k): G = (V, E) é um grafo não dirigido, 
uvevV, 
k > 0 é um inteiro, e 
existe um caminho de u a vem G 


que consiste em no máximo k arestas) . 


(Onde for conveniente, às vezes, usaremos o mesmo nome — PATH nesse caso — para nos referir a um problema 
de decisão e à sua linguagem correspondente.) 

O arcabouço das linguagens formais nos permite expressar concisamente a relação entre problemas de decisão e 
algoritmos que os resolvem. Dizemos que um algoritmo 4 aceita uma cadeia x & (0, 1)* se, dada a entrada x, a saída 
do algoritmo A(x) é 1. A linguagem aceita por um algoritmo 4 é o conjunto de cadeias L = (x E (0, 11* :A(x)= 1, 
isto é, o conjunto de cadeias que o algoritmo aceita. Um algoritmo 4 rejeita uma cadeia x se A(x) = 0. 

Ainda que a linguagem L seja aceita por um algoritmo 4, o algoritmo não rejeitará necessariamente uma cadeia x & 
L dada como entrada para ele. Por exemplo, o algoritmo pode entrar em laço para sempre. Uma linguagem L é 
decidida por um algoritmo 4 se toda cadeia binária em L é aceita por 4 e toda cadeia binária não pertencente a L é 
rejeitada por 4. Uma linguagem L é aceita em tempo polinomial por um algoritmo 4 se ela é aceita por 4 e se, além 
disso, existe uma constante k tal que, para qualquer cadeia x & L de comprimento n, o algoritmo 4 aceita x no tempo 
O(n,). Uma linguagem L é decidida em tempo polinomial por um algoritmo A se existe uma constante k tal que, para 
qualquer cadeia x E (0, 1;* de comprimento n, o algoritmo decide corretamente se x E L no tempo O(n,). Assim, 
para aceitar uma linguagem, basta que um algoritmo produza uma resposta quando lhe é dada uma cadeia em L, mas 
para decidir uma linguagem ele deve aceitar ou rejeitar corretamente toda cadeia em (0, 1)*. 

Como exemplo, a linguagem PATH pode ser aceita em tempo polinomial. Um algoritmo de aceitação de tempo 
polinomial verifica se G codifica um grafo não dirigido, verifica se u e v são vértices em G, usa busca em largura para 
calcular um caminho mínimo de u a v em G e depois compara o número de arestas no caminho mínimo obtido com k. 
Se G codifica um grafo não dirigido e o caminho de u a v tem no máximo k arestas, o algoritmo produz 1 e para. Caso 
contrário, o algoritmo roda para sempre. Todavia, esse algoritmo não decide PATH, já que não produz explicitamente O 
para instâncias nas quais um caminho mínimo tem mais de k arestas. Um algoritmo de decisão para PATH deve rejeitar 
explicitamente cadeias binárias que não pertencem a PATH. Para um problema de decisão como PATH, tal algoritmo de 
decisão é fácil de projetar: em vez de ser executado para sempre quando não há um caminho de u a v com no máximo 
k arestas, ele produz O e para. No caso de outros problemas, como o problema da parada de Turing, existe um 
algoritmo de aceitação, mas nenhum algoritmo de decisão. 

Podemos definir informalmente uma classe de complexidade como um conjunto de linguagens cuja pertinência é 
determinada por uma medida de complexidade, como o tempo de execução, de um algoritmo que determina se dada 
cadeia x pertence à linguagem L. A definição real de uma classe de complexidade é um pouco mais técnica.6 

Usando esse arcabouço da teoria das linguagens, podemos dar uma definição alternativa da classe de 
complexidade P: 


P=(L C(0,1J: existe um algoritmo A que decide L em tempo polinomial) . 


De fato, P também é a classe de linguagens que podem ser aceitas em tempo polinomial. 


Teorema 34.2 


P=(L:L é aceita por um algoritmo de tempo polinomial) . 


Prova Como a classe de linguagens decidida por algoritmos de tempo polinomial é um subconjunto da classe de 
linguagens aceita por algoritmos de tempo polinomial, basta mostrar que, se L é aceita por um algoritmo de tempo 
polinomial, ela é decidida por um algoritmo de tempo polinomial Seja L a linguagem aceita por algum algoritmo de 
tempo polinomial 4. Usaremos um argumento de “simulação” clássico para construir um outro algoritmo de tempo 
polinomial 4" que decida L. Como A aceita L no tempo O(n,) para alguma constante k, também existe uma constante c 
tal que 4 aceita L em no máximo cn, etapas. Para qualquer cadeia de entrada x, o algoritmo 4' simula cn, etapas de 4. 
Após simular cn, etapas, o algoritmo 4" inspeciona o comportamento de 4. Se 4 aceitou x, então 4" aceita x, 
produzindo um 1. Se 4 não aceitou x, então 4' rejeita x, produzindo um 0. A sobrecarga da simulação de 4 por 4' não 
aumenta o tempo de execução de mais de um fator polinomial e, assim, 4' é um algoritmo de tempo polinomial que 
decide L. 


Observe que a prova do Teorema 34.2 é não construtiva. Para dada linguagem L E P, na verdade podemos não 
conhecer um limite para o tempo de execução para o algoritmo 4 que aceita L. Apesar disso, sabemos que tal limite 
existe e, portanto, que existe um algoritmo 4' que pode verificar o limite, embora talvez não seja fácil encontrar o 
algoritmo 4". 


Exercícios 


34.1-1 Defina o problema de otimização LONGES TT PATH-LENGTH como a relação que associa cada instância de 
um grafo não dirigido e dois vértices ao número de arestas em um caminho simples de comprimento máximo 
entre os dois vértices. Defina o problema de decisão LONGEST-PATH = KG, u, v,k):G =(V, E) é um 
grafo não dirigido, u,v & V,k > 0 é um inteiro e existe um caminho simples de u a v em G que consiste em 
pelo menos k arestas). Mostre que o problema de otimização LONGEST-PATH-LENGTH pode ser 
resolvido em tempo polinomial se e somente se LONGEST-PATH E P. 


34.1-2 Dê uma definição formal para o problema de determinar o ciclo simples de comprimento máximo em um grafo 
não dirigido. Dê um problema de decisão relacionado. Dê a linguagem correspondente ao problema de 
decisão. 


34.1-3 Dê uma codificação formal de grafos dirigidos como cadeias binárias usando uma representação por matriz de 
adjacências. Faça o mesmo usando uma representação por lista de adjacências. Demonstre que as duas 
representações são polinomialmente relacionadas. 


34.1-4 O algoritmo de programação dinâmica para o problema da mochila 0-1 que é apresentado no Exercício 16.2- 
2 é um algoritmo de tempo polinomial? Explique sua resposta. 


34.1-5 Mostre que, se um algoritmo faz no máximo um número constante de chamadas a sub-rotinas de tempo 
polinomial e realiza uma quantidade adicional de trabalho que também demora tempo polinomial, ele é 
executado em tempo polinomial. Mostre também que um número polinomial de chamadas a sub-rotinas de 
tempo polinomial pode resultar em um algoritmo de tempo exponencial. 


34.1-6 Mostre que a classe P, vista como um conjunto de linguagens, é fechada sob união, interseção, concatenação, 
complemento e asterisco de Kleere. Isto é, se L,,L,€E P,entãoL,UL EPL NLEPLL EPL, 
EPeL EP. 


34.2 VERIFICAÇÃO EM TEMPO POLINOMIAL 


Agora, examinaremos algoritmos que “verificam” pertinência a linguagens. Por exemplo, suponha que para uma 
dada instância (G, u, v, k) do problema de decisão PATH, também temos um caminho p de u a v. É fácil verificar se p 
é um caminho em G e se o comprimento de p é no máximo k e, se for, podemos visualizar p como um “certificado” de 
que a instância de fato pertence a PATH. Para o problema de decisão PATH, esse certificado não parece nos dar muito. 
Afinal, PATH pertence a P— de fato, podemos resolver PATH em tempo linear — e, portanto, verificar a pertinência 
de um determinado certificado demora tanto tempo quanto resolver o problema partindo do zero. Examinaremos agora, 
um problema para o qual ainda não conhecemos nenhum algoritmo de decisão de tempo polinomia; porém, dado um 
certificado, a verificação é fácil. 


(a) (b) 


Figura 34.2 (a) Umgrafo que representa os vértices, arestas e faces de um dodecaedro, comumciclo hamiltoniano mostrado por arestas 
sombreadas. (b) Um grafo bipartido com um número ímpar de vértices. Qualquer grafo desse tipo é não hamiltoniano. 


Ciclos hamiltonianos 


O problema de determinar um ciclo hamiltoniano em um grafo não dirigido é estudado há mais de cem anos. 
Formalmente, um ciclo hamiltoniano de um grafo não dirigido G = (V, E) é um ciclo simples que contém cada vértice 
em V. Um grafo que contém um ciclo hamiltoniano é denominado hamiltoniano; caso contrário, ele é não 
hamiltoniano. O nome é uma homenagem a W. R. Hamilton, que descreveu um jogo matemático no dodecaedro 
(Figura 34.2(a)) no qual um jogador fixa cinco alfinetes em quaisquer cinco vértices consecutivos e o outro jogador 
deve completar o caminho para formar um ciclo que contenha o todos os vértices.” O dodecaedro é hamiltoniano, e a 
Figura 34.2(a) mostra um ciclo hamiltoniano. Contudo, nem todos os grafos são hamiltonianos. Por exemplo, a Figura 
34.2(b) mostra um grafo bipartido com um número ímpar de vértices. O Exercício 34.2-2 pede que você mostre que 
todos esses grafos são não hamiltonianos. 


Podemos definir o problema do ciclo hamiltoniano, “Um grafo G tem um ciclo hamiltoniano?”, como uma 
linguagem formal: 


HAM-CYCLE = KG): G é um grafo hamiltoniano!. 


Como poderia um algoritmo decidir a linguagem HAM-CYCLE? Dada uma instância de problema (G), um 
algoritmo de decisão possível organiza uma lista de todas as permutações dos vértices de G e depois verifica cada 
permutação para ver se ela é um caminho hamiltoniano. Qual é o tempo de execução desse algoritmo? Se usarmos a 
codificação “razoável” de um grafo como sua matriz de adjacências, o número m de vértices no grafo será (Nn), onde n 
= KG)| é o comprimento da codificação de G. Existem m! permutações possíveis dos vértices, e portanto o tempo de 
execução é (m!) = (Nn!) = (2 hn), que não é O(n,) para nenhuma constante k. Assim, esse algoritmo ingênuo não é 
executado em tempo polinomial. Na verdade, o problema do ciclo hamiltoniano é NP-completo, como provaremos na 
Seção 34.5. 


Algoritmos de verificação 


Considere um problema ligeiramente mais fácil. Suponha que um amigo lhe diga que um dado grafo G é 
hamiltoniano e depois se ofereça para provar isso dando a você os vértices em ordem ao longo do ciclo hamiltoniano. 
Certamente seria bem fácil verificar a prova: basta confirmar que o ciclo dado é hamiltoniano conferindo se ele é uma 
permutação dos vértices de V e se cada uma das arestas consecutivas ao longo do ciclo existe realmente no grafo. Você 
certamente poderia implementar esse algoritmo de verificação para ser executado no tempo O(n,), onde n é o 
comprimento da codificação de G. Assim, uma prova de que um ciclo hamiltoniano existe em um grafo pode ser 
verificada em tempo polinomial. 

Definmmos algoritmo de verificação como um algoritmo de dois argumentos 4, onde um argumento é uma cadeia 
de entrada comum x e o outro é uma cadeia binária y denominada certificado. Um algoritmo 4 de dois argumentos 
verifica uma cadeia de entrada x se existe um certificado y tal que A(x, y) = 1. A linguagem verificada por um 
algoritmo de verificação 4 é 


L=(xe(0,1/:existeye (0,1) tal que A(x,y) = 1). 


Intuitivamente, um algoritmo A verifica uma linguagem L se, para qualquer cadeia x E L, existe um certificado y 
que 4 pode utilizar para provar que x & L. Além disso, para qualquer cadeia x & L, não deve existir nenhum 
certificado que prove que x & LZ. Por exemplo, no problema do ciclo hamiltoniano, o certificado é a lista de vértices em 
algum ciclo hamiltoniano. Se um grafo é hamiltoniano, o próprio ciclo hamiltoniano oferece informações suficientes para 
verificar esse fato. Ao contrário, se um grafo não é hamiltoniano, não pode existir nenhuma lista de vértices que engane 
o algoritmo de verificação fazendo-o acreditar que o grafo é hamiltoniano, já que o algoritmo de verificação examina 
cuidadosamente o “ciclo” proposto para ter certeza. 


A classe de complexidade NP 


A classe de complexidade NP é a classe de linguagens que podem ser verificadas por um algoritmo de tempo 
polinomial.8 Mais precisamente, uma linguagem L pertence a NP se e somente se existe um algoritmo de tempo 
polinomial de duas entradas 4 e uma constante c tal que 


L = (xe (0,1: existe um certificado y com |y| = O(|x|9) 
tal que A(x,1y) = 1). 


Dizemos que o algoritmo 4 verifica a linguagem L em tempo polinomial. 
Pela nossa discussão anterior sobre o problema do ciclo hamiltoniano, agora vemos que HAM-CYCLE E NP. (É 
sempre agradável saber que um conjunto importante é não vazio.) Além disso, se L E P, então L E NP já que, se 


existe um algoritmo de tempo polinomial para decidir L, o algoritmo pode ser facilmente convertido em um algoritmo de 
verificação de dois argumentos que simplesmente ignora qualquer certificado e aceita exatamente as cadeias de entrada 
que ele determina que estão em Z. Assim, PEC NP. 

Não se sabe se P = NP, mas a maioria dos pesquisadores acredita que P e NP não são a mesma classe. 
Intuitivamente, a classe P consiste em problemas que podem ser resolvidos rapidamente. A classe NP consiste em 
problemas para os quais uma solução pode ser verificada rapidamente. Você deve ter aprendido por experiência que, 
muitas vezes, é mais dificil resolver um problema partindo do zero do que verificar uma solução apresentada com 
clareza, em especial quando se trabalha sob restrições de tempo. Os teóricos da ciência da computação em geral, 
acreditam que essa analogia se estende às classes P e NP e, por isso, que NP inclui linguagens que não estão em P. 

Existe uma evidência mais instigante, porém não conclusiva, de que P£ NP — a existência de linguagens “NP- 
completas”. Estudaremos essa classe na Seção 34.3. 


NP = co-NP 


& 


(a) (b) 


co-NP co-NP / NP 9 co-NP NP 


P = NP 9 co-NP 


(c) (d) 


Figura 34.3 Quatro possibilidades de relações entre classes de complexidade. Em cada diagrama, uma região que envolve uma outra 
indica uma relação de subconjunto próprio. (a) P= NP= co-NP. A maioria dos pesquisadores considera essa possibilidade a mais 
improvável. (b) Se NP é fechada sob complemento, então NP = co-NP, mas não é preciso que seja o caso de P=NP (c) P= NPN co-NB 
mas NP não é fechada sob complemento. (d) NP co-NPe P£NPN co-NP A maioria dos pesquisadores considera essa possibilidade a 
mais provável. 


Mutítas outras questões fundamentais além da questão P £ NP permanecem não resolvidas. A Figura 34.3 mostra 
alguns cenários possíveis. Apesar do grande trabalho de muitos pesquisadores, ninguém sabe sequer se a classe NP é 
fechada sob complemento. Isto é, L & NP implica L & NP? Podemos definr a classe de complexidade co-NP 
como o conjunto de linguagens L tal que L & NP. Podemos redefinr a questão de NP ser ou não fechada sob 
complemento como NP ser ou não igual a co-NP. Visto que P é fechada sob complemento (Exercício 34.1-6), decorre 
do Exercício 34.2-9 que PC NPN co-NP. Entretanto, mais uma vez, ninguém sabe se P= NP N co-NP ou se existe 
alguma linguagem em NP N co-NP — P. 

Assim, nossa compreensão da exata relação entre P e NP é terrivelmente incompleta. Apesar disso, e ainda que 
não consigamos provar que um determinado problema é intratável, se pudermos provar que ele é NP-completo, então 
já obtivemos valiosa informação sobre ele. 


Exercícios 


34.2-1 Considere a linguagem GRAPH-ISOMORPHISM = &G,, 6): G, e G, são grafos isomorfos). Prove que 
GRAPH-ISOMORPHISM €& NP, descrevendo um algoritmo de tempo polinomial para verificar a linguagem. 


34.2-2 Prove que, se G é um grafo bipartido não dirigido com um número ímpar de vértices, então G é não 
hamiltoniano. 


34.2-3 Mostre que, se HAM-CYCLE E P, então o problema de organizar uma lista dos vértices de um ciclo 
hamiltoniano, em ordem, pode ser resolvido em tempo polinomial. 


34.2-4 Prove que a classe NP de linguagens é fechada sob união, interseção, concatenação e estrela de Kleene. 
Discuta o fechamento de NP sob complemento. 


34.2-5 Mostre que qualquer linguagem em NP pode ser decidida por um algoritmo executado no tempo 2º(,x) para 
alguma constante X. 


34.2-6 Um caminho hamiltoniano em um grafo é um caminho simples que visita todo vértice exatamente uma vez. 
Mostre que a linguagem HAM-PATH = &G, u, v) : existe um caminho hamiltoniano de u até v no grafo G) 
pertence a NP. 


34.2-7 Mostre que o problema do caminho hamiltoniano do Exercício 34.2-6 pode ser resolvido em tempo 
polinomial para grafos acíclicos dirigidos. Dê um algoritmo eficiente para o problema. 


34.2-8 Seja f uma fórmula booleana construída pelas variáveis de entrada booleanas x,, x», ..., X,, negações (7), 
AND(A), OR(V) e parênteses. A fórmula f é uma tautologia se tem valor 1 para toda atribuição de 1 e O 
às variáveis de entrada. Defina TAUTOLOGY como a linguagem de fórmulas booleanas que são tautologias. 
Mostre que TAUTOLO- GY E co-NP. 


34.2-9 Prove que P€ co-NP. 
34.2-10 Prove que, se NP % co-NP, então P £ NP. 


34.2-11 Seja G um grafo conexo não dirigido com pelo menos três vértices e seja G, o grafo obtido ligando-se todos 
os pares de vértices que estão conectados por um caminho em G de comprimento máximo 3. Prove que G, é 
hamiltoniano. (Sugestão: Construa uma árvore geradora para G e use um argumento indutivo.) 


34.3 NP.compLETUDE E REDUTIBILIDADE 


Talvez a razão mais forte pela qual os teórico da ciência da computação acreditem que P £ NP seja a existência da 
classe de problemas “NP-completos”. Essa classe tem a intrigante propriedade de que, se algum problema NP- 
completo pode ser resolvido em tempo polinomial, então todo problema em NP tem uma solução em tempo polinomial, 
isto é, P= NP. Entretanto, apesar de anos de estudo, nenhum algoritmo de tempo polinomial jamais foi descoberto para 
qualquer problema NP-completo. 

A linguagem HAM-CYCLE é um problema NP-completo. Se pudéssemos decidir HAM-CYCLE em tempo 
polinomial, poderíamos resolver todo problema em NP em tempo polinomial. De fato, se NP — P viesse a ser não vazia, 
poderíamos dizer com certeza que HAM-CYCLE E NP-P. 

As linguagens NP-completas são, em certo sentido, as linguagens “mais dificeis” em NP. Nesta seção, 
mostraremos como comparar a “dificuldade” relativa de linguagens usando uma noção precisa denominada 
“redutibildade em tempo polinomial”. Depois, definimos formalmente as linguagens NP-completas e terminamos 


esboçando uma prova de que uma dessas linguagens, denominada CIRCUTT-SAT, é NP-completa. Nas Seções 34.4 e 
34.5, usaremos a noção de redutibilidade para mostrar que muitos outros problemas são NP-completos. 


Redutibilida de 


Intuitivamente, um problema O pode ser reduzido a outro problema Q' se qualquer instância de Q pode ser 
“facilmente reformulada” como uma instância de O”, cuja solução dá uma solução para a instância de O. Por exemplo, o 
problema de resolver equações lineares em um x indeterminado se reduz ao problema de resolver equações 
quadráticas. Dada uma instância ax + b = 0, transformamos essa instância em 0x, + ax + b = 0, cuja solução dá uma 
solução para ax + b = 0. Assim, se um problema Q se reduz a um outro problema O”, então O não é, em certo sentido, 
“mais difícil de resolver” que O”. 

Retornando à nossa estrutura de linguagens formais para problemas de decisão, dizemos que uma linguagem L, é 
redutível em tempo polinomial a uma linguagem L,, escrita L, <P L,, se existe uma função calculável de tempo 
polinomial f: (0, 1)* — (0, 1!* tal que, para todo x E (0, 1!*, 


x € L se e somente se f(x) € L,. (34.1) 


Denominamos a finção f função redução, e um algoritmo de tempo polinomial ” que calcula f é denominado 
algoritmo de redução. 


Figura 34.4 Ilustração de uma redução de tempo polinomial de uma linguagem L, a uma linguagem L, por meio de uma função de 
redução f Para qualquer entrada x €& (0, 1)+, a questão de saber sex E Li tema mesma resposta que a questão de saber se fx) E L,. 


A Figura 34.4 ilustra a ideia de uma redução de tempo polinomial de uma linguagem L, a uma outra linguagem L.. 
Cada linguagem é um subconjunto de (0, 1!*. A função redução f dá um mapeamento em tempo polinomial tal que, se 
x E L, então fix) E L,. Além disso, se x E L,, então f(x) E L,. Assim, a função redução mapeia qualquer instância x 
do problema de decisão representado pela linguagem L, para uma instância f(x) do problema representado por L, Dar 
uma resposta à questão “f(x) E L, ou não” dá diretamente a resposta à questão “x E L, ou não”. 

Reduções de tempo polinomial nos dão uma poderosa ferramenta para provar que diversas linguagens pertencem a 
P. 


Lema 34.3 
Se L, L, & (0, 1)* são linguagens tais que L, <P L,, então L, E PimplicaL, E P. 


Prova Seja 4, um algoritmo de tempo polinomial que decide L, e seja F um algoritmo de redução de tempo polinomial 
que calcula a função redução f. Construiremos um algoritmo de tempo polinomial 4, que decide L. 

A Figura 34.5 ilustra a construção de 4,. Para uma dada entrada x & (0, 1)*, o algoritmo 4, usa F para transformar x 
em f(x) e depois usa 4, para testar se fix) E L,. O algoritmo A, toma a saída do algoritmo 4, e produz aquela resposta 
como a sua própria resposta. 

A correção de 4, decorre da condição (34.1). O algoritmo é executado em tempo polinomial, já que tanto F quanto 4, 
são executados em tempo polinomial (ver o Exercício 34.1-5). 


NP-completude 


Reduções de tempo polinomial proporcionam um meio formal de mostrar que um problema é no mínimo tão difícil 
quanto um outro, a menos de um fator de tempo polinomial. Isto é, se L, <P L,, então L, não é mais do que um fator 
polinomial mais difícil que L,, e esse é o motivo por que a notação “menor que ou igual a” para redução é mnemônica. 
Agora podemos definir o conjunto de linguagens NP-completas, que são os problemas mais difíceis em NP. 


sim f(x) EL, sim, x E L, 


não f(x) É L, 


Figura 34.5 A prova do Lema 34.3. O algoritmo F é umalgoritmo de redução que calcula a função redução fde La L,emtempo 
polinomial, e 4, é umalgoritmo de tempo polinomial que decide L, . O algoritmo 4, decide sex E L usando F para transformar qualquer 
entrada x em fx) e depois usando 4, para decidirse fx) E L,. 


NP 


Figura 34.6 Como a maioria dos teóricos da ciência da computação vê as relações entre P, NPe NPC. Tanto P quanto NPC estão 
inteiramente contidas em NP, e PN NPC = 0/. 


Uma linguagem € (0, 1!* é NP-completa se 
l. Le NPe 

L' <»L para todo L' E NP. 

Se uma linguagem L satisfaz a propriedade 2 mas não necessariamente a propriedade 1, dizemos que L é NP- 
difícil. Também definimos NPC como a classe de linguagens NP-completas. 

Como mostra o teorema a seguir, NP-completude é o ponto crucial para decidir se P é de fato igual a NP. 


Teorema 34.4 


Se algum problema NP-completo é resolvível em tempo polinomial, então P = NP. Equivalentemente, se algum 
problema em NP não é resolvível em tempo polinomial, nenhum problema NP-completo é resolvível em tempo 
polinomial. 


Prova Suponha que L & Pe também que L & NPC. Para qualquer L' &€ NP, temos L' <P L pela propriedade 2 da 
definição de NP-completude. Assim, pelo Lema 34.3, também temos que L' &E P, o que prova o primeiro enunciado 
do teorema. 

Para provar o segundo enunciado, observe que ele é o contrapositivo do primeiro enunciado. 


É por essa razão que a pesquisa da questão P  NP se concentra em tomo dos problemas NP-completos. A 
maioria dos teóricos da ciência da computação acredita que P £ NP, o que leva às relações entre P, NP e NPC 
mostradas na Figura 34.6. Porém, que saibamos, bem que alguém ainda pode apresentar um algoritmo de tempo 
polinomial para um problema NP-completo e assim provar que P = NP. Não obstante, como ainda não foi descoberto 


nenhum algoritmo de tempo polinomial para qualquer problema NP-completo, uma prova de que um problema é NP- 
completo dá uma excelente evidência de que ele é intratável. 


Satisfazibilidade de circuitos 


Definimos a noção de um problema NP-completo mas, até este ponto, não provamos realmente que nenhum 
problema é NP-completo. Uma vez provado que pelo menos um problema é NP-completo, poderemos usar 
redutibilidade de tempo polinomial como uma ferramenta para provar que outros problemas são NP-completos. Assim, 
agora focalizamos a demonstração da existência de um problema NP-completo: o problema da satisfazibilidade de 
circuitos. 

Infelizmente, a prova formal de que o problema da satisfazibilidade de circuitos é NP-completo requer detalhes 
técnicos que estão fora do escopo deste texto. Em vez disso, descreveremos informalmente uma prova que depende de 
um entendimento básico de circuitos combinacionais booleanos. 

Circuitos combinacionais booleanos são construídos com elementos combinacionais booleanos interconectados por 
fios. Um elemento combinacional booleano é qualquer elemento de circuito que tem um número constante de 
entradas e saídas booleanas e que executa uma função bem definida. Valores booleanos são extraídos do conjunto (0, 
1:, onde O representa Fars: e 1 representa Trur. 

Os elementos combinacionais booleanos que utilizamos no problema da satisfazibilidade de circuitos calculam uma 
função booleana simples e são conhecidos como, portas lógicas. A Figura 34.7 mostra as três portas lógicas básicas 
que usamos no problema da satisfazibilidade de circuitos: a porta NOT (ou inversora), a porta AND e a porta OR. 
A porta NOT toma uma única entrada binária x, cujo valor é O ou 1, e produz uma saída binária z cujo valor é o 
oposto do valor da entrada. Cada uma das outras duas portas toma duas entradas binárias x e y e produz uma única 
saída binária z. 

Podemos descrever o funcionamento de cada porta e de qualquer elemento combinacional booleano por uma 
tabela verdade, mostrada sob cada porta na Figura 34.7. Uma tabela verdade dá as saídas do elemento combinacional 
para cada configuração possível das entradas. Por exemplo, a tabela verdade para a porta OR informa que, quando as 
entradas são x = 0 ey = 1,0 valor da saída é z = 1. Usamos os símbolos — para denotar a função NOT, A para 
denotar a função AND e V para denotar a função OR. Assim, por exemplo, 0 V 1=1. 

Podemos generalizar as portas AND e OR para que tomem mais de duas entradas. A saída de uma porta AND é 
1 se todas as suas entradas são 1, caso contrário sua saída é 0. A saída de uma porta OR é 1 se qualquer de suas 
entradas é 1, caso contrário sua saída é 0. 

Um circuito combinacional booleano consiste em um ou mais elementos combinacionais booleanos interligados 
por fios. Um fio pode ligar a saída de um elemento à entrada de outro, fornecendo assim o valor de saída do primeiro 
elemento como um valor de entrada do segundo. A Figura 34.8 mostra dois circuitos combinacionais booleanos 
semelhantes, diferentes somente por uma porta. A parte (a) da figura também mostra os valores nos fios individuais, 
dada a entrada (x, = 1, x, = 1, x, = 0). Embora um único fio não possa ter mais de uma saída de elemento 
combinacional ligada a ele, esse fio pode alimentar várias entradas de elementos. O número de entradas alimentadas por 
um fio é denominado leque de saída do fio. Se nenhuma saída de elemento está ligada a um certo fio, esse fio é uma 
entrada de circuito, que aceita valores de entrada de uma fonte externa. Se nenhuma entrada de elemento está ligada 
a um fio, esse fio é uma saída de circuito, que fomece os resultados da computação do circuito para o mundo exterior. 
(Um fio interno também pode ter uma saída em leque para uma saída de circuito.) Para definir o problema da 
satisfazibilidade de circuitos, limitamos o número de saídas de circuítos a 1, embora no projeto de hardware 
propriamente dito um circuito combinacional booleano possa ter várias saídas. 

Circuitos combinacionais booleanos não contêm nenhum ciclo. Em outras palavras, suponha que criamos um grafo 
dirigido G = (V, E) com um vértice para cada elemento combinacional e com k arestas dirigidas para cada fio cuja 
saída em leque é k; o grafo contém uma aresta dirigida (u, v) se um fio liga a saída do elemento u a uma entrada de 
elemento v. Então, G deve ser acíclico. 
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Figura 34.7 Três portas lógicas básicas, comentradas e saídas binárias. Sob cada porta está a tabela verdade que descreve a operação 
da porta. (a) A porta NOT. (b) A porta AND. (c) À porta OR. 


Uma atribuição verdade para um circuito combinacional booleano é um conjunto de valores de entrada 
booleanos. Dizemos que um circuito combinacional booleano de uma saída é satisfazível se tem uma atribuição que 
satisfaz: uma atribuição verdade que faz com que a saída do circuito seja 1. Por exemplo, o circuito na Figura 34.8(a) 
tem a atribuição que satisfaz (x, = 1, x, = 1, x, = 0) e, assim, é satisfazível Como o Exercício 34.3-1 pede para 
mostrar, nenhuma atribuição de valores para x ,, x, e x, faz com que o circuito da Figura 34.8(b) produza uma saída 1; 
ele sempre produz O e, assim, é insatisfazível. 

O problema da satisfazibilidade de circuitos é: “Dado um circuito combinacional booleano composto de portas 
AND, OR e NOT, ele é satisfazível?” Contudo, para propor formalmente essa pergunta, temos de concordar com uma 
codificação-padrão para circuitos. O tamanho de um circuito combinacional booleano é o número de elementos 
combinacionais somado ao número de fios no circuito. Poderíamos criar uma codificação semelhante a um grafo que 
mapeie qualquer circuito C dado para uma cadeia binária (C) cujo comprimento é polinomial em relação ao tamanho do 
próprio circuito. Então, como uma linguagem formal, podemos definir CIRCUTESAT = £ (<C) : C é um circuito 
combinacional booleano satisfazível) . 

O problema da satisfazibilidade de circuitos surge na área da otimização de hardware auxiliada por computador. Se 
um subcircuito sempre produz 0, esse subcircuito é desnecessário; o projetista pode substituí-lo por um subcircuito mais 
simples que omite todas as portas lógicas e produz o valor constante O como sua saída. Você pode ver por que 
gostaríamos de ter um algoritmo de tempo polinomial para esse problema. 

Dado um circuito C, poderíamos tentar determinar se ele é satisfazível apenas verificando todas as atribuições 
possíveis para as entradas. Infelizmente, se o circuito tem k entradas, há 2% atribuições possíveis. Quando o tamanho de 
C é polinomial em k, verificar cada uma demora o tempo (2%), que é superpolinomial em relação ao tamanho do 
circuito. De fato, como já afirmamos, há fortes evidências de que não existe nenhum algoritmo de tempo polinomial que 
resolva o problema da satisfazibilidade de circuitos porque a satisfazibilidade de circuitos é um problema NP-completo. 
Dividimos a prova desse fato em duas partes, com base nas duas partes da definição de NP-completude. 


Lema 34.5 
O problema da satisfazibilidade de circuitos pertence à classe NP. 
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Figura 34.8 Duas instâncias do problema da satisfazibilidade de circuitos. (a) A atribuição (x, = 1,x,= 1, x, = 0) para as entradas desse 
circuito faz com que a saída do circuito seja 1. O circuito é então satis fazível. (b) Nenhuma atribuição para as entradas desse circuito 
pode fazer com que a saída do circuito seja 1. Então, o circuito é insatis fazível. 


Prova Daremos um algoritmo 4 de tempo polinomial com duas entradas que pode verificar CIRCUTT- SAT. Uma 
das entradas para 4 é (uma codificação-padrão de) um circuito combinacional booleano €C. A outra entrada é um 
certificado que corresponde a uma atribuição de valores booleanos aos fios em € (veja no Exercício 34.3-4 um 
certificado menor). 

Construímos o algoritmo 4 da maneira mostrada a seguir. Para cada porta lógica no circuito, ele verifica se o valor 
fornecido pelo certificado no fio de saída é calculado corretamente em função dos valores nos fios de entrada. Então, se 
a saída do circuito inteiro é 1, o algoritmo produz 1, já que os valores atribuídos às entradas de € fornecem uma 
atribuição que satisfaz. Caso contrário, 4 produz 0. 

Sempre que um circuito satisfazível C é dado como entrada para o algoritmo 4, existe um certificado cujo 
comprimento é polinomial em relação ao tamanho de C e que faz com que 4 produza um 1. Sempre que um circuito 
insatisfazível é dado como entrada, nenhum certificado pode enganar 4 e fazê-lo acreditar que o circuito é satisfazível. 
O algoritmo 4 é executado em tempo polinomial: com uma boa implementação, o tempo linear é suficiente. Assim, 
podemos verificar CIRCUTE SAT em tempo polinomial, e CIRCUTESAT E NP. 

A segunda parte da prova de que CIRCUTE-SAT é NP-completo é mostrar que a linguagem é NP-dificil. Isto é, 
devemos mostrar que toda linguagem em NP é redutível em tempo polinomial a CIRCUTT-SAT. A prova propriamente 
dita desse fato é repleta de complexidades técnicas, portanto nos contentaremos com um esboço da prova baseado em 
alguma compreensão do funcionamento interno do hardware de computadores. 

Um programa de computador é armazenado na memória do computador como uma sequência de instruções. Uma 
instrução típica codifica uma operação a ser executada, endereços de operandos na memória e um endereço onde o 
resultado deve ser armazenado. Uma posição especial de memória, denominada contador de programa, controla qual 
instrução deve ser executada em seguida. O contador de programa é incrementado automaticamente sempre que uma 
instrução é recuperada, o que faz o computador executar instruções sequencialmente. Contudo, a execução de uma 
instrução pode fazer com que um valor seja escrito no contador de programa, o que altera a execução sequencial 
normal e permite que o computador execute laços e desvios condicionais. 

Em qualquer ponto durante a execução de um programa, a memória do computador guarda todo o estado da 
computação. (Entendemos que a memória inclui o programa em si, o contador de programa, a área de armazenamento 
e quaisquer dos vários bits de estado que um computador mantém para contabilidade.) Denominamos por 
configuração qualquer estado particular da memória do computador. Podemos ver que a execução de uma instrução 
pode ser vista como o mapeamento de uma configuração para outra. O hardware do computador que executa esse 
mapeamento pode ser implementado como um circuito combinacional booleano, que denotamos por M na prova do 
lema a segurr. 


Lema 34.6 


O problema da satisfazibilidade de circuitos é NP-dificil. 


Prova Seja L qualquer linguagem em NP. Descreveremos um algoritmo de tempo polinomial F que calcula uma função 
redução f que mapeia toda cadeia binária x para um circuito C = f(x) tal que x E L se e somente se C &E CIRCUIT 
SAT. 

Visto que L & NP, deve existir um algoritmo 4 que verifica L em tempo polinomial. O algoritmo F que 
construiremos usará o algoritmo 4 de duas entradas para calcular a função redução f. 

Seja T(n) o tempo de execução do pior caso do algoritmo 4 para cadeias de entrada de comprimento n e seja k > 
1 uma constante tal que T(n) = O(n,) e o comprimento do certificado é O(n,). (O tempo de execução de 4 é na 
realidade um polinômio no tamanho total da entrada, o que inclui uma cadeia de entrada, bem como um certificado; 
porém, como o comprimento do certificado é polinomial no comprimento n da cadeia de entrada, o tempo de execução 
é polinomial emn.) 

A ideia básica da prova é representar a computação de 4 como uma sequência de configurações. Como mostra a 
Figura 34.9, podemos dividir cada configuração em partes que consistem no programa para 4, contador de programa e 
estado da máquina auxiliar, entrada x, certificado y e área de armazenamento. O circuito combinacional M, que 
implementa o hardware do computador, mapeia cada configuração c, para a próxima configuração c, + 1, começando 
da configuração inicial c, O algoritmo 4 grava sua saída — O ou | — em alguma localização designada quando termina 
de executar e, se considerarmos que dali em diante 4 para, o valor nunca muda. Assim, se o algoritmo é executado 
durante no máximo T(n) etapas, a saída aparece como um dos bits em c;(,). 

O algoritmo de redução F constrói um único circuito combinacional que calcula todas as configurações produzidas 
por uma dada configuração inicial. A ideia é colar T(n) cópias do circuito M. A saída do i-ésimo circuito, que produz a 
configuração c,, alimenta diretamente a entrada do(i + 1)-ésimo circuito. Assim, as configurações, em vez de serem 
armazenadas na memória do computador, simplesmente permanecem como valores nos fios que ligam cópias de M. 

Lembre-se do que o algoritmo de redução de tempo polinomial F deve fazer. Dada uma entrada x, ele tem de 
calcular um circuito C = f(x) que é satisfazível se e somente se existe um certificado y tal que A(x, y) = 1. Quando F 
obtém uma entrada x, primeiro ele calcula n = |x| e constrói um circuito combinacional C” que consiste em T(n) cópias 
de M. A entrada para C€" é uma configuração inicial correspondente a uma computação em A(x, y), e a saída é a 


configuração cy(,). 
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Figura 34.9 A sequência de configurações produzidas por umalgoritmo 4 que executa uma entrada x e um certificado y. Cada 
configuração representa o estado do computador para uma etapa da computação e, além de 4, x e y, inclui o contador de programa (PC), 
o estado da máquina auxiliar e a área de armazenamento. Exceto pelo certificado y, a configuração inicial c, é constante. Um circuito 
combinacional booleano M mapeia cada configuração para a configuração seguinte. A saída é um bit distinto na área de armazenamento. 


O algoritmo F modifica ligeiramente o circuito C” para construir o circuito C = f(x). Primeiro, ele liga as entradas 
para C' correspondentes ao programa para 4, o contador de programa inicial, a entrada x e o estado inicial da memória 
diretamente a esses valores conhecidos. Assim, as únicas entradas restantes para o circuito correspondem ao certificado 
y. Depois, ignora todas as saídas do circuito, exceto o de c,(,) que corresponde à saída de 4. Esse circuito C assim 
construído calcula C(y) = A(x, y) para qualquer entrada y de comprimento O(n,). O algoritmo de redução F, quando 
recebe uma cadeia de entrada x, calcula esse circuito C e o produz como saída. 

Precisamos provar duas propriedades. Em primeiro lugar, devemos mostrar que F calcula corretamente uma 
função redução f. Isto é, temos de mostrar que C é satisfazível se e somente se existe um certificado y tal que A(x, y) = 
1. Em segundo lugar, devemos mostrar que F é executado em tempo polinomial. 

Para mostrar que F calcula corretamente uma função redução, vamos supor que exista um certificado y de 
comprimento O(n,) tal que A(x, y) = 1. Então, se aplicarmos os bits de y às entradas de C, a saída de C é C(y) = A(x, 


y) = 1. Assim, se existe um certificado, C é satisfazível Ao contrário, suponha que C seja satisfazível. 
Consequentemente, existe uma entrada y para C tal que C(y) = 1, do que concluímos que A(x, y) = 1. Assim, F calcula 
corretamente uma função redução. Para completar a prova, basta mostrar que F é executado em tempo polinomial em 
n= |]. 

A primeira observação que fazemos é que o número de bits necessários para representar uma configuração é 
polinomial em n. O programa para 4 em si tem tamanho constante, independentemente do comprimento de sua entrada 
x. O comprimento da entrada x é n, e o comprimento do certificado y é O(n,). Visto que o algoritmo é executado para 
no máximo O(n,) etapas, a quantidade de área de armazenamento exigida por 4 também é polinomial em n. (Supomos 
que essa memória seja contígua; o Exercício 34.3-5 pede para estender o argumento à situação na qual as posições 
acessadas por 4 estão espalhadas por uma região de memória muito maior e que o padrão de espalhamento específico 
pode ser diferente para cada entrada x.) 

O circuito combinacional M que implementa o hardware do computador tem tamanho polinomial no comprimento 
de uma configuração, que é O(n,); por consequência, o tamanho de M é polinomial em n. (A maior parte desses 
circuitos implementa a lógica do sistema de memória.) O circuito C consiste em no máximo t = O(n,) cópias de M e, 
consequentemente, tem tamanho polinomial em n. O algoritmo de redução F pode construir € a partir de x em tempo 
polinomial, já que cada etapa da construção demora tempo polinomial. 

Portanto, a linguagem CIRCUTESAT é no mínimo tão difícil quanto qualquer linguagem em NP e, visto que 
pertence a NP, ela é NP-completa. 


Teorema 34.7 


O problema da satisfazibilidade de circuitos é NP-completo. 


Prova Imediata, pelos Lemas 34.5 e 34.6 e pela definição de NP-completude. 


Exercícios 
34.3-1 Confirme que o circuito da Figura 34.8(b) é insatisfazível. 


34.3-2 Mostre que a relação <P é uma relação transitiva em linguagens. Isto é, mostre que, se L, <PL,e L, <P L,, 
então L, <P L,. 


34.3-3 Prove que L <PL se e somente se L <PL. 


34.3-4 Mostre que poderíamos ter usado uma atribuição satisfatória como um certificado em uma prova alternativa 
do Lema 34.5. Qual certificado facilita a prova? 


34.3-5 Aprova do Lema 34.6 supõe que a área de armazenamento para o algoritmo 4 ocupa uma região contígua de 
tamanho polinomial Em que parte exploramos essa hipótese? Demonstre que essa hipótese não envolve 
qualquer perda de generalidade. 


34.3-6 Uma linguagem L é completa para uma classe de linguagem € com relação a reduções de tempo polinomial 
seL E CeL'<PL para todo L' E C. Mostre que /0 e 10, 1)+ são as únicas linguagens em P que não são 
completas para P com relação a reduções de tempo polinomial. 


34.3-7 Mostre que, no que diz respeito a reduções de tempo polinomial (veja o Exercício 34.3- 6), L é completa 
para NP se e somente se L é completa para co-NP. 


34.3-8 O algoritmo de redução F na prova do Lema 34.6 constrói o circuito C = f(x) com base no conhecimento de 
x, 4 ek. O professor Sartre observa que a cadeia x é uma entrada para F, mas somente a existência de 4, k 
e do fator constante implícito no tempo de execução O(n,) é conhecida para F (já que a linguagem L pertence 
a NP), e não seus valores reais. Assim, o professor conclui que F não pode construir o circuito C e que a 
linguagem CIRCUTES AT não é necessariamente NP-dificil. Explique a falha no raciocínio do professor. 


34.4 Provas DA NP-.compLETUDE 


Provamos que o problema da satisfazibilidade de circuitos é NP-completo por uma prova direta de que L <P 
CIRCUTE-SAT para toda linguagem L & NP. Nesta seção, mostraremos como provar que as linguagens são NP- 
completas sem reduzir diretamente toda linguagem em NP à linguagem dada. Ilustraremos essa metodologia provando 
que vários problemas de satisfazibilidade de fórmulas são NP-completos. A Seção 34.5 dá muitos outros exemplos da 
metodologia. 

O lema a seguir é a base de nosso método para mostrar que uma linguagem é NP-completa. 


Lema 34.8 


Se L é uma linguagem tal que L' <P L para alguma L' E NPC, então L é NP-dificil. Se, além disso, L & NP, então L 
E NPC. 


Prova Visto que L' é NP-completa, para todo L” &E NP, temos L” <P ['. Por hipótese, L' <P L e, assim, por 
transitividade (Exercício 34.3-2), temos L”" <P L, o que mostra que L é NP-difícil Se L & NP, também temos L & 
NPC. 


Em outras palavras, reduzindo a L uma linguagem NP-completa L” conhecida, reduzimos implicitamente toda 

linguagem em NP a L. Assim, o Lema 34.8 apresenta um método para provar que uma linguagem L é NP-completa: 

l. Prove queL €E NP. 

2. Selecione uma linguagem NP-completa conhecida L”. 

3. Descreva um algoritmo que calcule uma função f mapeando toda instância x e (0, t+ de Z' para uma instância 

fix) de L. 

4. Prove que a função f satisfaza x E L' se e somente se f(x) E L para todo x E (0, 1)-. 
5. Prove que o algoritmo que calcula f é executado em tempo polinomial. 

(As etapas 2 a 5 mostram que L é NP-dificil) Essa metodologia de redução a partir de uma única linguagem NP- 
completa conhecida é muitíssimo mais simples que o processo mais complicado de mostrar diretamente como reduzir 
partindo de toda linguagem em NP. Provar que CIRCUTT-SAT & NPC já entreabriu a porta. Como sabemos que a 
satisfazibilidade de circuitos é um problema NP-completo, agora podemos provar com muito mais facilidade que outros 
problemas são NP-completos. Além disso, à medida que desenvolvermos um catálogo de problemas NP-completos 
conhecidos, teremos cada vez mais opções de linguagens a partir das quais reduzir. 


Satisfazibilidade de fórmulas 


Iustramos a metodologia de redução dando uma prova de NP-completude para o problema de determinar se uma 
fórmula booleana, não um circuito, é satisfazível. Esse problema tem a honra histórica de ter sido o primeiro problema a 
ser apresentado como NP-completo. 

Formulamos o problema da satisfazibilidade (de fórmulas) em termos da linguagem SAT da maneira ilustrada a 
seguir. Uma instância de SAT é uma fórmula booleana f composta de 
1. n variáveis booleanas: x1, Xx2, ..., Xn; 


2. m conectivos booleanos: qualquer função booleana com uma ou duas entradas e uma saída, como A (AND), V 

(OR), — (NOT), — (implicação), — (se e somente se); e 
3. parênteses. (Sem prejuízo da generalidade, supomos que não existem parênteses redundantes, isto é, a fórmula 

contém no máximo um par de parênteses por conetivo booleano.) 

É fácil codificar uma fórmula booleana f em um comprimento que é polinomial em n + m. Como em circuitos 
combinacionais booleanos, uma atribuição verdade para uma fórmula booleana f é um conjunto de valores para as 
variáveis de f, e uma atribuição satisfatória é uma atribuição verdade que faz com que ela seja avaliada como 1. 
Uma fórmula com uma atribuição que satisfaz é uma fórmula satisfazível. O problema da satisfazibilidade pergunta se 
uma dada fórmula booleana é satisfazível; em termos das linguagens formais, 


SAT = ((&) : & é uma fórmula booleana satisfazível) . 


Como exemplo, a fórmula 


6 (4, >1)V A x 2)V x) Aa, 


tem a atribuição (x,=0,x,=0,x,= 1, x,= 1) que a satisfaz, já que 


4=(0>0)vVa((-0SDVD)A-O (34.2) 
=(1Va(IVDAI 
=(1V0)V1 

Mas 


e, assim, essa fórmula f pertence a SAT. 

O algoritmo ingênuo para determinar se uma fórmula booleana arbitrária é satisfazível não é executado em tempo 
polinomial. A fórmula com n tem 2, atribuições possíveis. Se o comprimento de (f) é polinomial em n, verificar cada 
atribuição requer o tempo (2,), que é superpolinomial no comprimento de (f). Como mostra o teorema a seguir, é 
improvável que exista um algoritmo de tempo polinomial. 


Teorema 34.9 
A satisfazibilidade de fórmulas booleanas é NP-completa. 


Prova Começamos demonstrando que SAT E NP. Então, provaremos que SAT é NP-difícil mostrando que 
CIRCUTT-SAT SAT; pelo Lema 34.8, isso provará o teorema. 


Figura 34.10 Redução da satisfazibilidade de circuito à satisfazibilidade de fórmula. A fórmula produzida pelo algoritmo de redução tem 
uma variável para cada fio no circuito. 


Para mostrar que SAT pertence a NP, mostramos que um certificado que consiste em uma atribuição satisfatória 
para uma fórmula de entrada f pode ser verificado em tempo polinomial. O algoritmo de verificação simplesmente 
substitui cada variável na fórmula por seu valor correspondente e depois avalia a expressão, de um modo muito 
semelhante ao que fizemos na equação (34.2) . Essa tarefa é fácil de realizar em tempo polinomial. Se a expressão tem 
o valor 1, o algoritmo verificou que a fórmula é satisfazível. Assim, a primeira condição do Lema 34.8 para a NP- 
completude é válida. 

Para provar que SAT é NP-drficil, mostramos que CIRCUTE- SAT P SAT. Em outras palavras, precisamos mostrar 
como reduzir qualquer instância de satisfazibilidade de circuito a uma instância de satisfazibilidade de fórmula em tempo 
polinomial. Podemos usar indução para expressar qualquer circuito combinacional booleano como uma fórmula 
booleana. Simplesmente observamos a porta que produz a saída do circuito e expressamos indutivamente cada uma das 
entradas da porta como fórmulas. Então, obtemos a fórmula para o circuito escrevendo uma expressão que aplica a 
função da porta às fórmulas de suas entradas. 

Infelizmente, esse método direto não equivale a uma redução de tempo polinomial. Como o Exercício 34.4-1 lhe 
pede para mostrar, subfórmulas compartilhadas — que surgem de portas cujos fios de saída têm leque de saída 2 ou 
maior — podem fazer o tamanho da fórmula gerada crescer exponencialmente. Assim, o algoritmo de redução deve ser 
um pouco mais inteligente. 

A Figura 34.10 ilustra como superamos esse problema usando como exemplo o circuito da Figura 34.8(a). Para 
cada fio x, no circuíto C, a fórmula f tem uma variável x,. Agora podemos expressar como uma porta funciona sob a 
forma de uma pequena fórmula que envolve as variáveis de seus fios incidentes. Por exemplo, o funcionamento da porta 
de saída AND é x, < (x, À xg À x5). Denominamos cada uma dessas pequenas fórmulas por cláusula. 

A fórmula f produzida pelo algoritmo de redução é o AND da variável do circuito de saída com a conjunção de 
cláusulas que descrevem a operação de cada porta. Para o circuito da figura, a fórmula é 


$=% A(O 4) 
A (++ (6, V 2) 
AX. + a) 
A, ++ A MA Ko) 
Alt E V 2) 
A ti, + QE V 2) 
AX te, ÃO, AD). 
Dado um circuíto C, produzir tal fórmula f em tempo polinomial é direto. 
Por que o circuito C é satisfazível exatamente quando a fórmula fé satisfazível? Se C tem atribuição que satisfaz, cada 
fio do circuito tem um valor bem definido, e a saída do circuito é 1. Portanto, quando atribuímos valores de fios a 
variáveis em f, cada cláusula de f tem valor 1 e, assim, a conjunção de todos elas tem valor 1. Ao contrário, se alguma 


atribuição faz f apresentar o valor 1, o circuito C é satisfazível por um argumento análogo. Assim, mostramos que 
CIRCUTESAT?P SAT, o que conclui a prova. 


Satisfazibilidade 3-CNF 


Podemos provar que muitos problemas são NP-completos reduzindo a partir da satisfazibildade de fórmulas. 
Entretanto, o algoritmo de redução deve tratar qualquer fórmula de entrada, e isso pode levar a um número enorme de 
casos que temos de considerar. Muitas vezes, preferimos reduzir partindo de uma linguagem restrita de fórmulas 


booleanas, de modo que precisamos considerar um número menor de casos. É claro que não devemos restringir tanto a 
linguagem a ponto de ela se tornar resolvível em tempo polinomial. Uma linguagem conveniente é a satisfazibilidade 3- 
CNF, ou 3-CNF-SAT. 

Definimos satisfazibilidade 3-CNF usando os termos a seguir. Um literal em uma fórmula booleana é uma 
ocorrência de uma variável ou sua negação. Uma fórmula booleana está em forma normal conjuntiva, ou CNF 
(conjunctive normal form), se é expressa como um AND de cláusulas, cada uma das quais é o OR de um ou mais 
literais. Uma fórmula booleana está em forma normal 3-conjuntiva, ou 3-CNF, se cada cláusula tem exatamente três 
literais distintos. 

Por exemplo, a fórmula booleana 


Eva VA ve VadAt=s, Va, VR) 


está em 3-CNF. A primeira de suas três cláusulas é (x, V —x, V —x,), que contém os três literais x,, “x, € —x,. 

3-CNF-SAT pergunta se determinada fórmula booleana f em 3-CNF é satisfazível. O teorema a seguir mostra que 
é improvável que exista um algoritmo de tempo polinomial que pode determmar a satisfazibilidade de fórmulas 
booleanas, mesmo quando elas são expressas nessa forma normal simples. 


Teorema 34.10 


A satisfazibilidade de fórmulas booleanas em forma normal conjuntiva 3 é NP-completa. 


Prova O argumento que usamos na prova do Teorema 34.9 para mostrar que SAT & NP se aplica igualmente bem 
aqui para mostrar que 3-CNF-SAT E NP. Portanto, pelo Lema 34.8, basta mostrar que SAT P3-CNF-SAT. 
Dividimos o algoritmo de redução em três etapas básicas. Cada etapa transforma progressivamente a fórmula de 
entrada f, deixando-a mais próxima da forma normal 3-conjuntiva desejada. 
A primeira etapa é semelhante à que usamos para provar CIRCUIT-SAT P SAT no Teorema 34.9. Primeiro, 
construímos uma árvore binária “de análise” para a fórmula de entrada f, com literais como folhas e conectivos como 
nós internos. A Figura 34.11 mostra tal árvore de análise para a fórmula 


p= >x)vVa(oxeoex)VADA x. (34.3) 


Caso a fórmula de entrada contenha uma cláusula a OR de diversos literais, usamos associatividade para parentizar 
totalmente a expressão, de modo que cada nó interno na árvore resultante tenha um ou dois filhos. Agora podemos 
imaginar a árvore de análise como um circuito para calcular a função. 

Imitando a redução na prova do Teorema 34.9, introduzimos uma variável y, para a saída de cada nó interno. Em 
seguida, reescrevemos a fórmula original f como a AND da variável da raiz e uma conjunção de cláusulas que descreve 
o funcionamento de cada nó. Para a fórmula (34.3), a expressão resultante é 


| 


AX X3 


Figura 34.11 Árvore correspondente à fórmula f=((x, > x,) V (x, ex) V x) A. 


p= VARAS U Rd UPAR O) 
A Vo > (Us V 49) 
Ny; & (0 = 29) 
Ay, 2Y9) 
A (Us UV x) 
A (Y, e (e X, X5)). 


Observe que a fórmula f assim obtida é uma conjunção de cláusulas f”, cada qual com no máximo três literais. O 
único requisito que poderíamos deixar de cumprir é que cada cláusula seja uma OR de três literais. 

A segunda etapa da redução converte cada cláusula f” para a forma normal conjuntiva. Construímos uma tabela 
verdade para fi" avaliando todas as possíveis atribuições para suas variáveis. Cada linha da tabela verdade consiste em 
uma atribuição possível das variáveis da cláusula, juntamente com o valor da cláusula sob essa atribuição. Usando as 
entradas da tabela verdade cujo valor é 0, construímos uma fórmula em forma normal disjuntiva (ou DNF — 
disjunctive normal form) — uma OR de ANDs — que é equivalente a —f”. Então, negativamos essa fórmula e a 
convertemos em uma fórmula CNF fi”, usando as Leis de DeMorgan para lógica proposicional, 


—(anb)=-aVb, 
—(avb=- Ab, 


para complementar todos os literais, trocar ORs por ANDs e ANDs por OR. 
Em nosso exemplo, convertemos a cláusula fi" = (y, & (y, À —x,)) em CNF da maneira descrita a seguir. A 
tabela verdade para f1' é dada na Figura 34.12. A fórmula DNF equivalente a —fl' é 


AMADO AAA (A YA) NV (ay AV, A xo). 
Negativando e aplicando as leis de DeMorgan, obtemos a fórmula CNF 
= (Vaya) A(yVYy NV x) 
Ay VyVi)A(y Vaya), 
que é equivalente à cláusula original 1”. 


A —X,)) 


aa 

SE 

No 

No nono ns 
=" onoon-o|S 


o) 
ame 
ae 


Figura 34.12 A tabela verdade para a cláusula (p, & (7, A —x,)). 


Nesse ponto, já convertemos cada cláusula f” da fórmula f” em uma fórmula CNF f” e, assim, f é equivalente à 
fórmula /” que consiste na conjunção de fi”. Além disso, cada cláusula de f”' tem no máximo três literais. 

A terceira e última etapa da redução prossegue na transformação da fórmula, de modo que cada cláusula tenha 
exatamente três literais distintos. Construímos a fórmula 3-CNF final f” pelas cláusulas da fórmula CNF 7”. A fórmula f 


também usa duas variáveis auxiliares que denominaremos p e q. Para cada cláusula €, de f”, incluímos as seguintes 

cláusulas em /”: 

* Se Citemtrês literais distintos, simplesmente inclua C;como uma cláusula de 7”. 

* Se Citem dois literais distintos, isto é, se C= (1 V b), onde Ae b são literais, inclua (LV bVpD AL VV 
=p) como cláusulas de f”. Os literais p e —p cumprem apenas o requisito sintático que exige que cada cláusula de fº 
" tenha exatamente três literais distintos. Se p = 0 ou p = 1, uma das cláusulas é equivalente a / VW Leo valor da 
outra é 1, o que é a identidade para AND. 

e Se Citem apenas um literal distinto / inclua (IV pVD)DAUVPV-DAULVNpVDAUN DV 9) 
como cláusulas de /”. Independentemente dos valores de p e q, uma das quatro cláusulas é equivalente a /, e o 
valor das outras três é 1. 

Podemos ver que a fórmula 3-CNF f” é satisfazível se e somente se f é satisfazível inspecionando cada uma das 
três etapas. Como ocorreu na redução de CIRCUTT-SAT a SAT, a construção de f por / na primeira etapa preserva a 
satisfazibilidade. A segunda etapa produz uma fórmula CNF f” que é algebricamente equivalente a f. A terceira etapa 
produz uma fórmula 3-CNF f” que é efetivamente equivalente a /”, já que qualquer atribuição às variáveis p e q produz 
uma fórmula que é algebricamente equivalente a /”. 

Devemos mostrar também que a redução pode ser calculada em tempo polinomial Construir f a partir de f 
introduz no máximo uma variável e uma cláusula por conectivo em f. Construrr /” a partir de f pode introduzir no 
máximo oito cláusulas em /” para cada cláusula de f”, já que cada cláusula de /º tem no máximo três variáveis, e a tabela 
verdade para cada cláusula tem no máximo 23 = 8 linhas. A construção de f” a partir de /” introduz no máximo quatro 
cláusulas em /” para cada cláusula de /”. Portanto, o tamanho da fórmula resultante /” é polinomial no comprimento da 
fórmula original. Cada uma das construções pode ser facilmente realizada em tempo polinomial. 


Exercícios 


34.4-1 Considere a redução direta (de tempo não polinomial) na prova do Teorema 34.9. Descreva um circuito de 
tamanho n que, quando convertido para uma fórmula por esse método, produz uma fórmula cujo tamanho é 
exponencial em. 


34.4-2 Mostre a fórmula 3-CNF que resulta quando usamos o método do Teorema 34.10 para a fórmula (34.3). 


34.4-3 O professor Jagger propõe mostrar que SAT <P 3-CNF-SAT usando somente a técnica da tabela verdade na 
prova do Teorema 34.10 e não as outras etapas. Isto é, o professor propõe tomar a fórmula booleana f; 
formar uma tabela verdade para suas variáveis, deduzir da tabela verdade uma fórmula em 3-DNF que seja 
equivalente a —f e depois negativar e aplicar as leis de DeMorgan para produzir uma fórmula 3-CNF 
equivalente a f. Mostre que essa estratégia não produz uma redução de tempo polinomial. 


34.4-4 Mostre que o problema de determinar se uma fórmula booleana é uma tautologia é completo para co-NP. 
(Sugestão: Consulte o Exercício 34.3-7.) 


34.4-5 Mostre que o problema de determinar a satisfazibilidade de fórmulas booleanas em forma normal disjuntiva é 
resolvível em tempo polinomial. 


34.4-6 Suponha que alguém lhe dê um algoritmo de tempo polinomial para decidir a satisfazibilidade de fórmulas. 
Descreva como usar esse algoritmo para encontrar atribuições que a satisfazem em tempo polinomial. 


34.4-7 Seja 2-CNF-SAT o conjunto de fórmulas booleanas satisfazíveis em CNF com exatamente dois literais por 
cláusula. Mostre que 2-CNF-SAT E P. O seu algoritmo deve ser o mais eficiente possível (Sugestão: 
Observe que x V y é equivalente a —x — y. Reduza 2-CNF-SAT a um problema eficientemente resolvível 
em um grafo dirigido.) 


34.5 ProsBLEMAs NP-.compLETOS 


Os problemas NP-completos surgem em diversos domínios: lógica booleana, grafos, aritmética, projeto de rede, 
conjuntos e partições, armazenamento e recuperação, sequenciamento e escalonamento, programação matemática, 
álgebra e teoria dos números, jogos e quebra-cabeças, autômatos e teoria das linguagens, otimização de programas, 
biologia, química, física e outros. Nesta seção, usaremos a metodologia de redução para dar provas de NP-completude 
para uma variedade de problemas extraídos da teoria dos grafos e do particionamento de conjuntos. 

A Figura 34.13 representa a estrutura das provas de NP-completude nesta seção e na Seção 34.4. Provamos que 
cada linguagem na figura é NP-completa por redução da linguagem que aponta para ela. Na raiz está CIRCUTT-SAT, 
que provamos ser NP-completo no Teorema 34.7. 


34.5.1 O PROBLEMA DO CLIQUE 


Um clique em um grafo não dirigido G = (V, E) é um subconjunto V € V de vértices, no qual cada par está 
ligado por uma aresta em E. Em outras palavras, um clique é um subgrafo completo de G. O tamanho de um clique é 
o número de vértices que contém. O problema do clique é o problema de otimização de encontrar um clique de 
tamanho máximo em um grafo. Por ser um problema de decisão, simplesmente perguntamos se um clique de um dado 
tamanho k existe no grafo. A definição formal é 


CLIQUE = &G, K) : G é um grafo com um clique de tamanho k!. 


Um algoritmo ingênuo para determinar se um grafo G = (V, E) com |V] vértices tem um clique de tamanho k é fazer 
uma lista de todos os subconjuntos k de V e conferir cada um para ver se ele forma um clique. O tempo de execução 
desse algoritmo é (k,(|)|), que é polinomial se k é uma constante. Porém, em geral k poderia estar próximo de |V//2 e, 
nesse caso, o algoritmo é executado em tempo superpolinomial. Na verdade, é improvável que exista um algoritmo 
eficiente para o problema do clique. 


CIRCUTT-SAT 


3-CNF-SAT 


SUBSET-S UM 


CLIQUE 
VERTEX-COVER 
HAM-CYCLE 


Figura 34.13 Estrutura de provas de NP-completude nas Seções 34.4 e 34.5. Todas as provas decorrem emúltima análise por redução da 
NP-completude de CIRCUTT-SAT. 


Teorema 34.11 
O problema do clique é NP-completo. 


Prova Para mostrar que CLIQUE & NP, para um dado grafo G = (V, E), usamos o conjunto V € V de vértices no 
clique como um certificado para G. Podemos verificar se V” é um clique em tempo polinomial verificando se, para cada 
paru,v &€ V,a aresta (u, v) pertence a E. 

Em seguida, provamos que 3-CNF-SAT <? CLIQUE, o que mostra que o problema do clique é NP-difiícil. É 
surpreendente que possamos provar tal resultado, já que, à primeira vista, fórmulas lógicas parecem ter pouco a ver 
com grafos. 

O algoritmo de redução começa com uma instância de 3-CNF-SAT. Sejaf=C, AC, A... À C, uma fórmula 
booleana em 3-CNF com k cláusulas. Para 7 = 1, 2,..., k, cada cláusula €, tem exatamente três literais distintos [,,, L,, 
e /,. Construiremos um grafo G tal que f seja satisfazível se e somente se G tem um clique de tamanho k. 

Construiremos o grafo G = (V, E) da seguinte maneira. Para cada cláusula C = Il V 2 V 13) em f, inserimos 
uma tripla de vértices v,,, Vo € v; em V. Inserimos uma aresta entre dois vértices v i e vj se ambas as afirmativas 
seguintes valem: 


* viev; estão emtriplas diferentes, isto é, 7 4 s € 
* seus literais correspondentes são coerentes, isto é, li não é a negação de lj. 
E fácil construir esse grafo a partir de f em tempo polinomial. Como exemplo dessa construção, se temos 


d=(,V-sV—a)A( Ve Viga Va Va), 


então G é o grafo mostrado na Figura 34.14. 

Devemos mostrar que essa transformação de fem G é uma redução. Primeiro, suponha que f tenha uma atribuição 
que satisfaz. Então, cada cláusula €, contém no mínimo um literal /i ao qual é atribuído 1, e tal literal corresponde a um 
vértice vi. Escolher um desses literais “verdadeiros” de cada cláusula produz um conjunto de V' de k vértices. 
Afirmamos que Y” é um clique. Para quaisquer dois vértices vi, vi € V, onde r £s, ambos os literais correspondentes, 
li e 1, mapeiam para 1 pela atribuição dada e, portanto, os literais não podem ser complementos. Assim, pela 
construção de G, a aresta (vi, vJ) pertence a E. 


Ci=XVaxsVaxs 


C =X VXx2V xs Co=x,V XV xs 


Figura 34.14 O grafo G derivado da fórmula 3-CNFf=C, A C,A C,,onde C=(x,V x, V x), C=(x Vx, Vx,)eC,=(x Vx, 
V x; ) na redução de 3-CNF-SAT a CLIQUE. Uma atribuição que satisfaz a fórmula temx, = 0,x, = 1, e x, pode ser 0 ou 1. Essa atribuição 
satisfaz C, com -x,e C,e C, comx,, correspondente ao clique com vértices sombreados em tom mais claro. 


Inversamente, suponha que G tenha uma clique V” de tamanho k. Nenhuma aresta em G liga vértices na mesma 
tripla e, portanto, V” contém exatamente um vértice por tripla. Podemos atribuir 1 a cada literal /i tal que vi € V, sem 
receio de atribuir 1 a um literal e a seu complemento, já que G não contém arestas entre literais incoerentes. Cada 
cláusula é satisfeita, e portanto f é satisfeita. (Quaisquer variáveis que não correspondam a nenhum vértice no clique 
podem ser definidas arbitrariamente. 

No exemplo da Figura 34.14, uma atribuição que satisfaz de f tem x, = 0 e x, = 1. Um clique correspondente de 
tamanho k = 3 consiste nos vértices que correspondem a —x, da primeira cláusula, x, da segunda cláusula e x, da 
terceira cláusula. Como o clique não contém nenhum vértice correspondente a x, nem a —x,, podemos definir x, como O 
ou 1 nessa atribuição satisfatória. 

Observe que, na prova do Teorema 34.11, reduzimos uma instância arbitrária de 3-CNF-SAT a uma instância de 
CLIQUE com uma estrutura específica. Pode parecer que mostramos apenas que CLIQUE é NP-dificil em grafos nos 
quais os vértices estão restritos a ocorrer em triplas e nos quais não há arestas entre vértices na mesma tripla. 
Realmente, já mostramos que CLIQUE é NP-drfícil apenas nesse caso restrito, mas essa prova basta para mostrar que 


CLIQUE é NP-dificil em grafos gerais. Por quê? Se tivéssemos um algoritmo de tempo polinomial que resolvesse 
CLIQUE em grafos gerais, ele também resolveria CLIQUE em grafos restritos. 

Todavia, a abordagem inversa — reduzir instâncias de 3-CNF-SAT com uma estrutura especial a instâncias gerais 
de CLIQUE — também não teria sido suficiente. Por quê? Talvez as instâncias de 3-CNF-SAT que escolhemos para 
iniciar a redução fossem “fáceis”, e portanto não teríamos reduzido um problema NP-dificila CLIQUE. 

Observe também que a redução usou a instância de 3-CNF-SAT, mas não a solução. Teríamos errado se a 
redução de tempo polinomial tivesse sido baseada em saber se a fórmula f é satisfazível, já que não sabemos como 
decidir se f é satisfazível em tempo polinomial. 


34.5.2 O PROBLEMA DE COBERTURA DE VÉRTICES 


Uma cobertura de vértices de um grafo não dirigido G = (V, E) é um subconjunto V € Vtalque (u, v) E E, 
entãou Ee Vouv &€ V (ou ambos). Isto é, cada vértice “cobre” suas arestas incidentes, e uma cobertura de vértices 
para G é um conjunto de vértices que cobre todas as arestas em E. O tamanho de uma cobertura de vértices é o 
número de vértices que contém. Por exemplo, o grafo na Figura 34.15(b) tem uma cobertura de vértices (w, zk de 
tamanho 2. 

O problema de cobertura de vértices é o de encontrar uma cobertura de vértices de tamanho mínimo em dado 
grafo. Enunciando novamente esse problema de otimização como um problema de decisão, desejamos determinar se 
um grafo tem uma cobertura de vértices de tamanho k dado. Como linguagem, definimos 


(a) (b) 


Figura 34.15 Redução CLIQUE a VERTEX-COVER. (a) Um grafo não dirigido G = (V, E) comclique Vº= fu, v,x, +. (b) O grafo G 
produzido pelo algoritmo de redução que tem cobertura de vértices V- V'= fw,z +. 


VERTEX-COVER = «&G, k) : grafo G tem uma cobertura de vértices de tamanho k + . 
O teorema a seguir mostra que esse problema é NP-completo. 


Teorema 34.12 
O problema de cobertura de vértices é NP-completo. 


Prova Primeiro mostramos que VERTEX-COVER & NP. Vamos supor que tenhamos um grafo G = (V, E) e um 
inteiro k. O certificado que escolhemos é a própria cobertura de vértices V € V. O algoritmo de verificação afirma que 
|V]| = k, e então verifica, para cada aresta (u,v) E E, queu E V'ouv E V. É fácil verificar o certificado em tempo 
polinomial. 


Provamos que o problema de cobertura de vértices é NP-dificil mostrando que CLIQUE <P VERTEX-COVER. 
Essa redução se baseia na noção de “complemento” de um grafo. Dado um grafo não dirigido G = (V, E), definimos o 
complemento de G como G =(V, E), onde E = ((u,v):u,v E Viuzve(u,v) É E). Em outras palavras, G é o 
grafo que contém exatamente as arestas que não estão em G. A Figura 34.15 mostra um grafo e seu complemento, e 
ilustra a redução de CLIQUE a VERTEX-COVER. 

O algoritmo de redução toma como entrada uma instância (G, k) do problema do clique. Calcula o complemento 
G, o que é fácil de fazer em tempo polinomial. A saída do algoritmo de redução é a instância (G, |V] — k) do problema 
de cobertura de vértices. Para concluir a prova, mostramos que essa transformação é de fato uma redução: o grafo G 
tem um clique de tamanho k se e somente se o grafo tem uma cobertura de vértices de tamanho |V] — k. 

Suponha que G tenha um clique ” € V com |V| = k. Afirmamos que V — V é uma cobertura de vértices em G. 
Seja (u, v) qualquer aresta em E. Então, (u, v) É E, o que implica que pelo menos um de u e v não pertence a V”, já 
que todo par de vértices em V” está ligado por uma aresta de E. De modo equivalente, pelo menos um de u e v está em 
V- V, o que significa que a aresta (u, v) é coberta por V — V”. Visto que (u, v) foi escolhida arbitrariamente em E, toda 
aresta de E é coberta por um vértice em V — Y. Consequentemente, o conjunto V — V, que tem tamanho |V| — k, forma 
uma cobertura de vértices para G. 

Ao contrário, suponha que G tenha uma cobertura de vértices ” € V, onde |V'| = |V| — k. Então, para todo u, v 
E V,se(u,v)€E E,enãou E Vouv E V, ou ambos. A contrapositiva dessa implicação é que, para todo u, v E 
Vseu&Vev&V, então (u, v) E E. Em outras palavras, V — V é um clique e tem tamanho |V| — |V = k. 


Visto que VERTEX-COVER é NP-completo, não esperamos encontrar um algoritmo de tempo polinomial para 
determinar uma cobertura de vértices de tamanho mínimo. Contudo, a Seção 35.1 apresenta um “algoritmo de 
aproximação” de tempo polinomial, que produz soluções “aproximadas” para o problema de cobertura de vértices. O 
tamanho de uma cobertura de vértices produzida pelo algoritmo é no máximo duas vezes o tamanho mínimo de uma 
cobertura de vértices. Assim, não devemos deixar de ter esperança só porque um problema é NP-completo. Talvez 
possamos projetar um algoritmo de aproximação de tempo polinomial que obtenha soluções aproximadas, embora 
descobrir uma solução ótima seja NP-completo. O Capítulo 35 dá vários algoritmos de aproximação para NP- 
completo. 


34.5.3 O PROBLEMA DO CICLO HAMILTONIANO 


Voltamos agora ao problema do ciclo hamiltoniano definido na Seção 34.2. 


Teorema 34.13 
O problema do ciclo hamiltoniano é NP-completo. 


Prova Primeiro mostramos que HAM-CYCLE pertence a NP. Dado um grafo G = (V, E), nosso certificado é a 
sequência de vértices |V] que forma o ciclo hamiltoniano. O algoritmo de verificação confere se essa sequência contém 
cada vértice em V exatamente uma vez e se, com o primeiro vértice repetido no final, ela forma um ciclo em G. Isto é, 
verifica se existe uma aresta entre cada par de vértices consecutivos e entre o primeiro e o último vértices. Podemos 
verificar o certificado em tempo polinomial. 

Agora provamos que VERTEX-COVER <? HAM-CYCLE, o que mostra que HAM-CYCLE é NP-completo. 
Dado um grafo não dirigido G = (V, E) e um inteiro k, construímos um grafo não dirigido G' = (VW, E”) que tem um ciclo 
hamiltoniano se e somente se G tem uma cobertura de vértices de tamanho k. 

Nossa construção é baseada em um widget, que é um fragmento de um grafo que impõe certas propriedades. A 
Figura 34.16(a) mostra o widget que usamos. Para cada aresta (u, v) E E, o grafo G' que construímos conterá uma 
cópia desse widget, que denotamos por W,,. Denotamos cada vértice em W,, por [u, v, i] ou [v, u, il, onde 1 <i< 6, 
de modo que cada widget W,, contém 12 vértices. O widget W,, também contém as 14 arestas mostradas na Figura 


34.16(a). Junto com a estrutura interna do widget, impomos as propriedades que queremos, limitando as conexões 
entre o widget e o restante do grafo G' que construímos. Em particular, somente os vértices [u, v, 1], [u, v, 6], [v, u, 1] 
e [v, u, 6] terão arestas incidentes que vêm de fora de W,.. Qualquer ciclo hamiltoniano de G' terá de percorrer as 
arestas de W,, em um dos três modos mostrados nas Figuras 34.16(b)(d). Se o ciclo entrar pelo vértice [u, v, 1], deve 
sair pelo vértice [u, v, 6] e visitar todos os 12 vértices do widget (Figura 34.16(b)) ou os seis vértices de [u, v, 1] a [u, 
v, 6] (Figura 34.16(c)). Nesse último caso, o ciclo terá de entrar novamente no widget para visitar os vértices [v, u, 1] 
a [v, u, 6]. De modo semelhante, se o ciclo entrar pelo vértice [v, u, 1], deverá sair pelo vértice [v, u, 6] e visitar todos 
os 12 vértices do widget (Figura 34.16(d)) ou os seis vértices de [v, u, 1] a [v, u, 6] (Figura 34.16(c)). Não é possível 
nenhum outro caminho que passe pelo widget e visite todos os 12 vértices. Em particular, é impossível construir dois 
caminhos disjuntos nos vértices, um dos quais ligue [u, v, 1] a [v, u, 6] e o outro ligue [v, u, 1] a [u, v, 6], tais que a 
união dos dois caminhos contenha todos os vértices do widget. 

Os únicos vértices em V” além dos vértices dos widgets são vértices seletores s, , 5, »..., Sy- Usamos arestas 
incidentes em vértices seletores de G' para selecionar os k vértices da cobertura em G. Além das arestas em widgets, E 
" contém dois outros tipos de arestas que a Figura 34.17 mostra. Primeiro, para cada vértice u & V, adicionamos 
arestas para unir pares de widgets de modo a formar um caminho que contém todos os widgets correspondentes a 
arestas incidentes em u em G. Ordenamos arbitrariamente os vértices adjacentes a cada vértice u & V como u,, 
Up» Ugranu)p Onde (grau(u)) é o número de vértices adjacentes a u. Criamos um caminho em G" que passa por todos 
os widgets que correspondem a arestas incidentes em u adicionando a E” as arestas (([u, ug, 6], [u, uGtD, ID :I<i< 
grau(u) — 1). Por exemplo, na Figura 34.17, ordenamos os vértices adjacentes a w como x, y,z, e assim grafo G' 
da parte (b) da figura inclui as arestas ([w, x, 6], [w, y, 1]) e ([w, y, 6], [w, z, 1]). Para cada vértice u E V, essas 
arestas em G' completam um caminho que contém todos os widgets que correspondem a arestas incidentes para u em 
ér 


uva 
uv 
uva 
uv 4 


uvs 


uvs [v,u6] à [v1.6] [u,v,6] (o [v.u4,6] 


(a) (b) 


(d) 


Figura 34.16 O widget usado para reduzir o problema de cobertura de vértices ao problema de ciclo hamiltoniano. Uma aresta (u, v ) do 
grafo G corresponde ao widget Wi no grafo G' criado na redução. (a) O widget, com vértices individuais identificados. (b)-(d) Os 
caminhos sombreados são os únicos possíveis que passam pelo widget e incluemtodos os vértices, considerando que as únicas 
ligações do widget como restante de G' são realizadas pelos vértices [u, v, 1], [u, v, 6], [v, u, 1] e [v, u, 6]. 


(a) 


N 


[rx6) = [x,m,6] [43,6] Ú O [y.x.6] [w 6] NX Ú [vw 6] 


[2.w,6] 


Figura 34.17 Redução de uma instância do problema da cobertura de vértices a uma instância do problema do ciclo hamiltoniano. (a) 
Um grafo não dirigido G com uma cobertura de vértices de tamanho 2, que consiste nos vértices sombreados emtommais claro w e y. (b) 
O grafo não dirigido G' produzido pela redução, como caminho hamiltoniano correspondendo à cobertura de vértices sombreado. A 
cobertura de vértices (w,)) corresponde às arestas (s,, [w,x, 1]) e (s,, [y, x, 1]) que aparecemno ciclo hamiltoniano. 


A intuição por trás dessas arestas é que, se escolhermos um vértice u & V na cobertura de vértices de G, 
podemos construir um caminho de [u, ua, 1] até [u, Uau()), 6] em G" que “cobre” todos os widgets que 
correspondem a arestas incidentes em uy. Isto é, para cada um desses widgets, digamos W,,u(i), o caminho inclui todos 
os 12 vértices (se u está na cobertura de vértices, mas uy não está) ou apenas os seis vértices [u, Ui 1, [u, ua 2) +.» 
[u, up 6] (se u e u, estão ambos na cobertura de vértices). 

O último tipo de aresta em E" une o primeiro vértice [u, uç, 1] e o último vértice [u, Uau)» 6] de cada um desses 
caminhos a cada um dos vértices seletores. Isto é, incluímos as arestas 


((s, [u,uD, I):ue Vel <j<k 
U t(s,. [u, usa) 6):ueVel<j<k). 
Em seguida, mostramos que o tamanho de G' é polinomial no tamanho de G e, consequentemente, podemos 


construir G' em tempo polinomial no tamanho de G. Os vértices de G' são os dos widgets, mais os vértices seletores. 
Com 12 vértices por widget, mais k < |V| vértices seletores, temos um total de 


V|=12 |El+k 
<12 |E|+I|V] 


vértices. As arestas de G' são as dos widgets, as que ficam entre widgets e as que ligam vértices seletores a widgets. 
Cada widget contém 14 arestas, o que dá um total de 14 |E| em todos os widgets. Para cada vértice u E V, o grafo G' 
tem arestas de grau (u) — 1 entre widgets. Portanto, a soma das arestas em todos os vértices em V, é 


> (grau(u)-1)=21El-IV| 


ueV 


arestas entre widgets. Finalmente, G' tem duas arestas para cada par que consiste em um vértice seletor e um 
vértice de V, totalizando 2k |V] dessas arestas. O número total de arestas de G' é então 


E" = (14 |E) + Q IE| — |V) + Ck |V] 
= 16 |E|+ (2k— 1) |V] 
<16 |EJ+(2|V|- DI|VI. 


Agora, mostramos que a transformação do grafo G em G' é uma redução. Isto é, devemos mostrar que G tem 
uma cobertura de vértices de tamanho k se e somente se G' tem um ciclo hamiltoniano. 

Suponha que G = (V, E) tenha uma cobertura de vértices VE € V de tamanho k. Seja V* = fu,, u,,..., ui). Como 
mostra a Figura 34.17, formamos um ciclo hamiltoniano em G* incluindo as seguintes arestas!0 para cada vértice u, & 
V*. Incluímos as arestas (([u,, ud), 6], [up u(HD, 1) : 1 <i< grau(u)-— 1), que ligam todos os widgets que 
correspondem a arestas incidentes em u;. Também incluímos as arestas contidas nesses widgets, como mostram as 
Figuras 34.16(b)(d), dependendo de a aresta ser coberta por um ou dois vértices em V*. O ciclo hamiltoniano 
também inclui as arestas 


((s, [u, UP, 1): 1 <j<k 
Ulls dj li UE Ala qa = 1) 
U LER [u,» uu ferve), 6)) j 


Examinando a Figura 34.17, pode-se verificar que essas arestas formam um ciclo. O ciclo começa em s,, visita 
todos os widgets que correspondem a arestas incidentes em u,, depois visita s,, visita todos os widgets que 
correspondem a arestas incidentes em u,, e assim por diante, até retornar a s,. O ciclo visita cada widget uma ou duas 
vezes, dependendo de um ou dois vértices de V* cobrir(em) sua aresta correspondente. Como V* é uma cobertura de 
vértices para G, cada aresta em E é incidente em algum vértice de V*, e portanto o ciclo visita cada vértice em cada 
widget de G”. Visto que o ciclo também visita todo vértice seletor, ele é hamiltoniano. 

Inversamente, suponha que G' = (V”, E” tenha um ciclo hamiltoniano C € E". Afirmamos que o conjunto 


Vi=(uevV: (s, [u,u,1])eCparaalgum 1 <;j<k) (34.4) 


é uma cobertura de vértices para G. Para ver por que, particione C em caminhos maximais que começam em algum 
vértice seletor s;, percorrem uma aresta (s;, [4, ug, 1]) para algum u & V e terminam em um vértice seletor s, sem 
passar por nenhum outro vértice seletor. Vamos denominar cada caminho “caminho de cobertura”. Dependendo de 
como G" é construído, cada caminho de cobertura deve começar em algum s,, tomar a aresta (s, [u, ua» 1]) 
correspondente a algum vértice u & V, passar por todos os widgets que correspondem a arestas de E incidentes em u 
e depois terminar em algum vértice seletor s;. Referimo-nos a esse caminho de cobertura como p, e, pela equação 
(34.4), inserimos u em V*. Cada widget visitado por p, deve ser W, ou W,, para algum v E V. Para cada widget 
visitado por p,, seus vértices são visitados por um ou por dois caminhos de cobertura. Se forem visitados por um 
caminho de cobertura, a aresta (u, v) &E E é coberta em G pelo vértice u. Se dois caminhos de cobertura visitam o 
widget, o outro caminho de cobertura deve ser p,, o que implica que v €E VX, e a aresta (u, v) E E é coberta por u e 
por v. Como cada vértice em cada widget é visitado por algum caminho de cobertura, vemos que cada aresta em E é 
coberta por algum vértice em V*. 


34.5.4 O PROBLEMA DO CAIXEIRO-VIAJANTE 


No problema do caixeiro-viajante, que está intimamente relacionado ao problema do ciclo hamiltoniano, um 
vendedor deve visitar n cidades. Modelando o problema como um grafo completo com n vértices, podemos dizer que 
o vendedor deseja fazer um percurso, ou um ciclo hamiltoniano, visitando cada cidade exatamente uma vez e 
terminando na cidade de onde partiu. O vendedor incorre em um custo inteiro não negativo c(i, j) para viajar da cidade 
i para a cidade j, e deseja fazer o percurso cujo custo total seja mínimo, em que o custo total é a soma dos custos 
individuais ao longo das arestas do percurso. Por exemplo, na Figura 34.18, um percurso de custo mínimo é (u, w, v, X, 
u) , com custo 7. A linguagem formal para o problema de decisão correspondente é 


TSP = ((G,c,k): G = (V, E) é um grafo completo, 
c é uma função de V x V>N, 
keNe 
G tem um percurso de caixeiro-viajante com custo menor ou igual a k). 
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Figura 34.18 Uma instância do problema do caixeiro-viajante. As arestas sombreadas representam um percurso de custo mínimo, com 
custo 7. 


O teorema a seguir mostra que é improvável que exista um algoritmo rápido para o problema do caixeiro-viajante. 


Teorema 34.14 


O problema do caixeiro-viajante é NP-completo. 


Prova Primeiro mostramos que TSP pertence a NP. Dada uma instância do problema, usamos como certificado a 
sequência de n vértices no percurso. O algoritmo de verificação confirma que essa sequência contém cada vértice 
exatamente uma vez, soma os custos de arestas e verifica se a soma é no máximo k. Esse processo pode certamente ser 
feito em tempo polinomial. 

Para provar que TSP é NP-dificil, mostramos que HAM-CYCLE <P TSP. Seja G = (V, E) uma instância de 
HAM-CYCLE. Construímos uma instância de TSP da maneira seguinte. Formamos o grafo completo G" = (V, E, 
onde E'= f(i,j):i;j € Vi eifj) e definimos a função custo c como 


O se(i,j)et, 
1 SELNGE 


(Observe que, como G é não dirigido, não tem nenhum laço, assim c(v, v) = 1 para todos os vértices v E V.) A 
instância de TSP é então (G”, c, 0), que podemos facilmente criar em tempo polinomial. 

Agora, mostraremos que o grafo G tem um ciclo hamiltoniano se e somente se o grafo G' tem um percurso cujo 
custo é menor ou igual a O. Suponha que o grafo G tenha um ciclo hamiltoniano A. Cada aresta em h pertence a E e, 
portanto, tem custo O em G”. Assim, h é um percurso em G" com custo 0. Ao contrário, suponha que o grafo G' tenha 
um percurso h' de custo menor ou igual a O. Visto que os custos das arestas em E' são 0 e 1, o custo da percurso h' é 
exatamente 0, e cada aresta no percurso deve ter custo 0. Portanto, A" contém apenas arestas em E. Concluímos que h 
é um ciclo hamiltoniano no grafo G. 


c(i,))= 


34.5.5 O PROBLEMA DA SOMA DE SUBCONJUNTOS 


O próximo problema NP-completo que consideraremos é aritmético. No problema da soma de subconjuntos, 
temos um conjunto finito S de inteiros positivos e um inteiro alvo t > 0. Perguntamos se existe um subconjunto Sº € S 
cuja soma de seus elementos é t. Por exemplo, se S = (1, 2, 7, 14, 49, 98, 343, 686, 2409, 2793, 16808, 17206, 
117705, 117993) e t = 138457, então o subconjunto S' = (1, 2, 7, 98, 343, 686, 2409, 17206, 117705) é uma 
solução. 

Como sempre, definimos o problema como uma linguagem: 


SUBSET-SUM = [(S, t) : existe um subconjunto S" C S tal que t = 3.55). 


Como ocorre com qualquer problema de aritmética, é importante lembrar que nossa codificação padrão pressupõe 
que os inteiros da entrada estão codificados em binário. Com isso em mente, podemos mostrar que é improvável que o 
problema da soma de subconjuntos tenha um algoritmo rápido. 


Teorema 34.15 


O problema da soma de subconjuntos é NP-completo. 


Prova Para mostrar que SUBSET-SUM está em NP, para uma instância (S, 1) do problema é o subconjunto S" é o 
certificado. Um algoritmo de verificação pode verificar se £ = 3 E ss em tempo polinomial. 

Agora mostraremos que 3-CNF-SAT <? SUBSETSUM. Dada uma fórmula 3-CNF f para as variáveis x,, X,, ..., 
x, com cláusulas €,, C,, ..., C,, cada uma contendo exatamente três literais distintos, o algoritmo de redução constrói 


uma instância (S, t) do problema da soma de subconjuntos, tal que f é satisfazível se e somente se existe um 

subconjunto de S cuja soma seja exatamente t. Sem prejuízo da generalidade, fazemos duas suposições simplificadoras 

para a fórmula f. A primeira é que nenhuma cláusula contém ambas, uma variável e sua negação, visto que tal cláusula é 

automaticamente satisfeita por qualquer atribuição de valores para as variáveis. A segunda é que cada variável aparece 

em, no mínimo, uma cláusula porque não importa qual valor é atribuído a uma variável que não aparece. 

A redução cria dois números no conjunto .S para cada variável x, e dois números em S para cada cláusula C.. 
Criaremos números em base 10, onde cada número contém n + k dígitos e cada dígito corresponde a uma variável ou a 
uma cláusula. A base 10 (e outras bases, como veremos) tem a propriedade de que precisamos, de impedir transportes 
de dígitos mais baixos para dígitos mais altos. 

Como mostra a Figura 34.19, construímos o conjunto S e o alvo t da seguinte maneira. Rotulamos cada posição de 
digito por uma variável ou por uma cláusula. Os k dígitos menos significativos são rotulados pelas cláusulas e os n 
digitos mais significativos são rotulados por variáveis. 

* Oalvot temum 1 em cada digito rotulado por uma variável, e um 4 em cada dígito rotulado por uma cláusula. 

* Para cada variável x; o conjunto S contém dois inteiros, vie v!. Cada vie v/ tem um 1 no dígito rotulado por x, e 
Os nos outros dígitos de variáveis. Se o literal x, aparece na cláusula C,, então o dígito rotulado por C, em v; contém 
um 1. Se o literal —x, aparece na cláusula C,, o dígito rotulado por C, em v/ contém um 1. Todos os outros dígitos 
rotulados por cláusulas em v, e v;' são 0. 

Todos os valores v, e v;/ no conjunto S são únicos. Por quê? Para /  i, nenhum v, ou v/ pode ser iguala v, e v/ 

nos n dígitos mais significativos. Além disso, pelas simplificações que adotamos no início, nenhum v, e v;' pode ser 

igual em todos os k dígitos menos significativos. Se v, e v;” fossem iguais, então x, e —x;, teriam de aparecer 
exatamente no mesmo conjunto de cláusulas. Contudo, combinamos que nenhuma cláusula contém x, e —x, ao 

mesmo tempo e que x, ou =x; aparece em alguma cláusula, e portanto deve haver alguma cláusula C, para a qual v; 

e v; são diferentes. 

* Para cada cláusula C; o conjunto S contém dois inteiros, s;e s/. Cada s;e s/ tem Os em todos os dígitos exceto o 
digito identificado por C;. Para s;, existe um 1 no dígito C;e s/ tem um 2 >nesse dígito. Esses inteiros são “variáveis 
de folgas”, que usamos para conseguir que cada posição de dígito identificada por cláusula alcance o valor alvo de 
4. 

A simples inspeção da Figura 34.19 demonstra que todos os valores s, e s/ em.S são únicos no conjunto S. 

Observe que a maior soma de dígitos em qualquer posição de dígito é 6, que ocorre nos dígitos identificados por 
cláusulas (três Is dos valores v; e v;, mais 1 e 2 dos valores s,e s,). Portanto, mterpretando esses números em base 10, 
não pode ocorrer nenhum transporte de dígitos mais baixos para dígitos mais altos. 11 

Podemos executar a redução em tempo polinomial. O conjunto S contém 2n + 2k valores, cada um deles com n + 
k dígitos, e o tempo para produzir cada dígito é polinomial em n + k. O alvo t tem n + k dígitos, e a redução produz 
cada um deles em tempo constante. 

Agora mostramos que a fórmula 3-CNF fé satisfazível se e somente se existe um subconjunto S” E S cuja soma é 
t. Primeiro, suponha que f tenha uma atribuição que satisfaz. Para i = 1,2,...,n, sex, = 1 nessa atribuição, então 
incluímos v, emS”. Caso contrário, incluímos v;. Em outras palavras, incluímos em S" exatamente os valores v, e v; que 
correspondem a literais com o valor 1 na atribuição. Incluído v, ou v;”, mas não ambos, para todo i, e como foi inserido 
O nos dígitos rotulados por variáveis em todo s; e sf, vemos que para cada dígito rotulado por variável a soma dos 
valores de S' deve ser 1, o que corresponde aos dígitos do alvo t. Como cada cláusula é satisfeita, a cláusula contém 
algum literal com o valor 1. Portanto, cada dígito rotulado por uma cláusula tem no mínimo um 1 em sua soma fornecido 
por um valor vou v/em S”. De fato, 1, 2 ou 3 Iíterais podem ter 1 em cada cláusula, e assim cada dígito rotulado por 
cláusula tem soma de 1, 2 ou 3 dos valores ve v/emS”. (Por exemplo, na Figura 34.19, os literais —x,, “x, e x, têm o 
valor 1 em uma atribuição que satisfaz. Cada uma das cláusulas C€, e C, contém exatamente um desses literais e, assim, 
juntos, v,', v,' e v; contribuem com 1 para a soma nos dígitos para C, e C,. A cláusula C, contém dois desses literais, e 
V1, v, e v, contribuem com 2 para a soma no dígito correspondente a C,. A cláusula C, contém todos esses três 
literais, v,', v,' e v, contribuem com 3 para a soma no dígito correspondente a €,. Chegamos ao alvo de 4 em cada 


dígito identificado pela cláusula C, incluindo em S" o subconjunto não vazio adequado de variáveis de folga ts, s;. Na 
Figura 34.19, S" inclui s,, s,', 85”, 54, 84 € S4,. Visto que equiparamos o alvo em todos os dígitos da soma e não pode 
ocorrer nenhum transporte, a soma dos valores de S' é 1. 


X1 Xa2 X3 Ci Cs Cs Cá 


a 
| 
O 
O 
O 
2 
O 
O 
O 


Bei 
] 
o 
o 
o 
o 
(o 
— 
o 


0 DD DO DR l 


seda; ÃA 
to = 1 1 1 4/4 0/40 4 


Figura 34.19 A redução de 3-CNF-SAT a SUBSET-SUM. A fórmula em3-CNFéf=C,AC,AC,AC,,ondeC=(x,V x, V —,),C, 
=(mVwVw)eC=( Vw Vx)eC,=(4Vx,Vx;). Uma atribuição que satisfaz de fé (x, =0,x,=0,x,=1). O conjunto S 
produzido pela redução consiste nos números em base 10 mostrados; de cima para baixo, S = (1001001, 1000110, 100001, 101110, 10011, 
11100, 1000, 2000, 100, 200, 10, 20, 1, 23. O alvo t é 1114444. O subconjunto S' € S está sombreado em tom mais claro e contém v',,v»,e 
vs, que correspondem atribuição satisfatória. Também contém variáveis de folgas s,,s',,8,8;,S,es',para alcançar o valor de alvo 4 
nos dígitos identificados por Ca C,. 


Agora, suponha que exista um subconjunto S' € S cuja soma seja t. O subconjunto S” deve incluir exatamente um 
de v, e v; para cada i= 1,2, ..., n já que, do contrário, os dígitos identificados por variáveis não somariam 1. Se v, E 
S”, definimos x, = 1. Caso contrário, v; €E S' e definimos x, = 0. Afirmamos que toda cláusula C, para; = 1,2,...,k, é 
satisfeita por essa atribuição. Para provar essa afirmação, observe que, para alcançar a soma 4 no dígito identificado 
por C, o subconjunto S" deve incluir no mínimo um valor v; ou v; que tenha 1 no dígito identificado por C,, já que as 
contribuições das variáveis de folgas s; e sy juntas somam no máximo 3. Se S” incluir um v; que tenha um 1 na posição 
de C;, então o literal x, aparece na cláusula C,. Como definimos x, = 1 quando v; & S”, a cláusula C, é satisfeita. Se S' 
incluir um v; que tenha um 1 nessa posição, então o literal —x, aparecerá em C,. Visto que definimos x, = O quando v; 
& 5”, a cláusula C, é novamente satisfeita. Assim, todas as cláusulas de f são satisfeitas, o que conclui a prova. 


Exercícios 


34.5-1 


34.5-2 


34.5-3 


34.5-4 


34.5-5 


34.5-6 


34.5-7 


34.5-8 


O problema de isomorfismo de subgrafos toma dois grafos não dirigidos G, e G, e pergunta se G, é 
isomorfo a um subgrafo de G,. Mostre que o problema de isomorfismo de subgrafos é NP-completo. 


Dada uma matriz 4 m x n de inteiros e um m-vetor inteira, b, o problema de programação inteira 0-1 
pergunta se existe um n-vetor de inteiros, x, com elementos no conjunto (0, 14 tal que 4x < b. Prove que a 
programação inteira 0-1 é NP-completa. (Sugestão: Reduza partindo de 3-CNF-SAT) 


O problema de programação linear inteira é semelhante ao problema de programação inteira 0-1 dado no 
Exercício 34.5-2, exceto que os valores do vetor x podem ser quaisquer inteiros em vez de somente O ou 1. 
Considerando que o problema de programação inteira 0-1 é NP-difícil mostre que o problema de 
programação linear inteira é NP-completo. 


Mostre como resolver o problema da soma de subconjuntos em tempo polinomial se o valor alvo t é expresso 
em unário. 


O problema de partição de conjuntos toma como entrada um conjunto S de números. A questão é se os 
números podem ser particionados em dois conjuntos 4e 4 =S-Atais que 3x E 4x =5x E 4º x. Mostre 
que o problema de partição de conjuntos é NP-completo. 


Mostre que o problema do caminho hamiltoniano é NP-completo. 


O problema do ciclo simples de comprimento máximo é o problema de determinar um ciclo simples (sem 
vértices repetidos) de comprimento máximo em um grafo. Formule um problema de decisão relacionado e 
mostre que esse problema é NP-completo. 


No problema de satisfazibilidade da meia forma normal 3-conjuntiva (meia 3-CNF) temos uma 
fórmula normal 3-conjuntiva f com n variáveis e m cláusulas, onde m é par. Desejamos determinar se existe 
uma atribuição verdade para as variáveis de f tal que exatamente metade das cláusulas tenha valor O e 
exatamente metade das cláusulas tenha valor 1. Prove que o problema de satisfazibilidade da meia 3-CNF é 
NP-completo. 


Problemas 


34-1 


Conjunto independente 


34-2 


34-3 


Um conjunto independente de um grafo G = (V, E) é um subconjunto V € V de vértices, tal que cada 
aresta em E é incidente em no máximo um vértice em V. O problema do conjunto independente é 
encontrar um conjunto independente de tamanho máximo em G. 


a. Formuk um problema de decisão relacionado para o problema do conjunto independente e prove que 
ele é NP-completo. (Sugestão: Reduza partindo do problema da clique.) 


b. Suponha que você recebeu uma sub-rotina em “caixa-preta” para resolver o problema de decisão que 
definiu na parte (a). Dê um algoritmo para encontrar um conjunto independente de tamanho máximo. O 
tempo de execução de seu algoritmo deve ser polinomial em |V] e |E|, contando consultas à caixa-preta 
como uma única etapa. Embora o problema de decisão do conjunto independente seja NP-completo, 
certos casos especiais são resolvíveis em tempo polinomial. 


c. Dê umalgoritmo eficiente para resolver o problema do conjunto independente quando cada vértice em G 
tem grau 2. Analise o tempo de execução e prove que seu algoritmo funciona corretamente. 


d. Dê um algoritmo eficiente para resolver o problema do conjunto independente quando G é bipartido. 
Analise o tempo de execução e prove que seu algoritmo funciona corretamente. (Sugestão: Use os 
resultados da Seção 26.3.) 


Bonnie e Clyde 


Bonnie e Clyde acabaram de assaltar um banco. Eles têm uma sacola de dinheiro e querem reparti-lo. Para 
cada um dos cenários a seguir, dê um algoritmo de tempo polinomial ou prove que o problema é NP- 
completo. A entrada em cada caso é uma lista dos n itens na sacola, junto com o valor de cada um. 


a. A sacola contém n moedas, mas somente duas denominações diferentes: algumas moedas valem x 
dólares e algumas valem y dólares. Bonnie e Clyde desejam dividir o dinheiro em partes exatamente 
b. A sacola contém n moedas, com um número arbitrário de denominações diferentes, mas cada 


denominação é uma potência inteira não negativa de 2, isto é, os valores possíveis das denominações são 
1 dólar, 2 dólares, 4 dólares etc. Bonnie e Clyde desejam dividir o dinheiro em partes exatamente iguais. 


c. A sacola contém n cheques, que, por uma coincidência incrível, são nominais a “Bonnie ou Clyde”. Eles 
desejam dividir os cheques de modo que cada um receba exatamente a mesma quantia. 


d. A sacola contém n cheques como na parte (c), mas dessa vez Bonnie e Clyde estão dispostos a aceitar 
uma divisão em que a diferença não seja maior que 100 dólares. 


Coloração de grafos 


Fabricantes de mapas tentam usar o mínimo de cores possível para colorir países em um mapa, desde que 
dois países que compartilhem uma fronteira não tenham a mesma cor. 


Podemos modelar esse problema com um grafo não dirigido G = (V, E) no qual cada vértice representa um 
país e os vértices cujos respectivos países compartilham uma fronteira são adjacentes. Então colorir um 
grafo com k cores é uma função c:V > (1,2,...,Kk) tal que c(u) + c(v) para toda aresta (u, v) E E. Em 
outras palavras, os números 1, 2, ..., k representam as k cores, e vértices adjacentes devem ter cores 
diferentes. O problema da coloração de grafos é determinar o número mínimo de cores necessárias para 
colorir um dado grafo. 


34-4 


a. Dê umalgoritmo eficiente para colorir um grafo com duas cores, se ele existir. 


b. Expresse o problema de colorir grafos como um problema de decisão. Mostre que seu problema de 
decisão é resolvível em tempo polinomial se e somente se o problema da coloração de grafos é resolvível 
em tempo polinomial. 


c. Seja 3-COLOR a linguagem que é o conjunto de grafos que podem ser coloridos em três cores). Mostre 
que, se 3-COLOR é NP-completo, seu problema de decisão da parte (b) é NP-completo. 


Para provar que 3-COLOR é NP-completo, usamos uma redução de 3-CNF-SAT. Dada uma fórmula f, de 
m cláusulas para n variáveis X,, X,, ..., X, construímos um grafo G = (V, E) da seguinte maneira. O conjunto 
V consiste em um vértice para cada variável, um vértice para a negação de cada variável, cinco vértices para 
cada cláusula e três vértices especiais: True, FaLsre Rep. As arestas do grafo são de dois tipos: arestas 
“literais”, que são independentes das cláusulas, e arestas “cláusulas”, que dependem das cláusulas. As arestas 
literais formam um triângulo nos vértices especiais e também formam um triângulo em x,, —x,, e Rep para i= 1, 
o 1 


d. Demonstre que, em qualquer problema c de colorir em três cores um grafo que contém arestas literais, 
exatamente uma de uma variável e sua negação é colorida c(Truz:) e a outra é colorida c(Fatse). 
Demonstre que, para qualquer atribuição verdade de f, existe uma coloração em três cores do grafo que 
contém apenas as arestas literais. 


O widget mostrado na Figura 34.20 ajuda a impor a condição correspondente a uma cláusula (x V y V 2). 
Cada cláusula requer uma cópia única dos cinco vértices que estão sombreados em tom mais escuro na figura; 
eles se ligam aos literais da cláusula e ao vértice especial Trur da maneira mostrada. 


e. Demonstre que, se cada x, y e z é colorido c(Truz) ou c(Fats), o widget pode pode ser colorido em três 
cores se e somente se no mínimo um de x, y ou z é colorido c(Truz). 


fi Conclua a prova de que 3-COLOR é NP-completo. 
Escalonamento com lucros e prazos finais 


Suponha que tenhamos uma máquina e um conjunto de n tarefas a,, a,, ..., à, € cada uma requeira tempo na 
máquina. Cada tarefa a, requer t, unidades de tempo na máquina (seu tempo de processamento), rende um 
lucro p; e tem um prazo final d;. A máquina pode processar somente uma tarefa por vez, e a tarefa a, deve ser 
executada ininterruptamente por 1, unidades de tempo consecutivas. Se concluirmos a tarefa a, em seu prazo 
final d,, receberemos um lucro p;, mas se a concluirmos após seu prazo final não obteremos nenhum lucro. Por 
ser um problema de otimização, temos os tempos de processamento, lucros e prazos finais para um conjunto 
de n tarefas e desejamos determinar um escalonamento que conclua todas as tarefas e retorne o maior lucro 
possível. Os tempos de processamento, lucros e prazos finais são números negativos. 


a. Enuncie este problema como um problema de decisão. 
b. Mostre que o problema de decisão é NP-completo. 


c. Dê um algoritmo de tempo polinomial para o problema de decisão supondo que todos os tempos de 
processamento são inteiros de 1 a n. (Sugestão: Use programação dinâmica.) 


d. Dê um algoritmo de tempo polinomial para o problema de otimização, supondo que todos os tempos de 
processamento são inteiros de 1 a nn. 


Figura 34.20 O widget correspondente a uma cláusula (x V y V 2), usado no Problema 34-3. 


NorTas DO CAPÍTULO 


O livro de Garey e Johnson [129] é um maravilhoso guia para a NP-completude por discutir a teoria a findo e 
fornecer um catálogo de muitos problemas que eram conhecidos como NP-completos em 1979. A prova do Teorema 
34.13 foi adaptada desse livro, e a lista de domínios de problemas NP-completos no início da Seção 34.5 foi extraída 
de seu sumário. Johnson escreveu uma série de 23 colunas no Journal of Algorithms entre 1981 e 1992 relatando 
novos desenvolvimentos no estudo da NP-completude. Hopcroft, Motwani e Ullman [177], Lewis e Papadimiriou 
[236], Papadimitriou [270] e Sipser [317] trazem bons tratamentos da NP-completude no contexto da teoria da 
complexidade. A NP-completude e várias reduções também aparecem em livros por Aho, Hopcroft e Ullman [5], 
Dasgupta, Papadimtriou e Varizani [82], Johnsonbaugh e Schaefer [193] e Kleinberg e Tardos [208]. 

A classe P foi introduzida em 1964 por Cobham [72] e, independentemente, em 1965 por Edmonds [100], que 
também apresentou a classe NP e conjeturou que P £ NP. A noção da NP-completude foi proposta em 1971 por 
Cook [75], que deu as primeiras provas da NP-completude para satisfazibilidade de fórmulas e satisfazibilidade 3- 
CNF. Levin [234] descobriu independentemente a noção, dando uma prova da NP-completude para um problema de 
ladrilhamento. Karp [199] introduziu a metodologia de reduções em 1972 e demonstrou a rica variedade de problemas 
NP-complktos. O artigo de Karp incluía as provas originais da NP-completude dos problemas da clique, da cobertura 
de vértices e do ciclo hamiltoniano. Desde então, muitos pesquisadores provaram que milhares de problemas eram NP- 
completos. Em uma conversa durante uma reunião para comemorar os 60 anos de Karp em 1995, Papadimitriou 
observou que “aproximadamente 6.000 artigos por ano são publicados com a expressão “NP-completo” em seu título, 
sumário ou lista de palavras-chave. Isso é mais do que cada um dos termos “compilador”, “banco de dados”, 
“especialista”, “rede neural” ou “sistema operacional”. 

O trabalho recente em teoria da complexidade lançou alguma luz sobre a complexidade do cálculo de soluções 
aproximadas. Ele apresentou uma nova definição de NP, usando “provas probabilisticamente verificáveis”. Essa nova 
definição implica que, para problemas como o do clique, da cobertura de vértices, do caixeiro viajante com a 
desigualdade triangular e muitos outros, o cálculo de boas soluções aproximadas é NP-difiícil e, consequentemente, não 
é mais fácil que o cálculo de soluções ótimas. Uma introdução a esse assunto pode ser encontrada na tese de Arora 
[20], em um capítulo de Arora e Lund em Hochbaum [172], um levantamento por Arora [21], um livro editado por 
Mayr, Prômel e Steger [246] e em um artigo de pesquisa de Johnson [191]. 


1 Consulte em Hopcrotf e Ullman [180] ou Lewis e Papadimitriou [236] um tratamento completo do modelo da máquina de Turing. 

20 contradomínio de e não precisa ser cadeias binárias; qualquer conjunto de cadeias sobre um alfabeto finito que tenha pelo menos 
dois símbolos servirá. 

3 Supomos que a saída do algoritmo está separada de sua entrada. Como demora no mínimo uma etapa de tempo para produzir cada bit 
da saída e o algoritmo leva O(T(n)) etapas de tempo, o tamanho da saída é O(T(n)). 

4 Denotamos por (0, 1)+o conjunto de todas as cadeias compostas de símbolos do conjunto (0, 1). 

s Tecnicamente, também exigimos que as funções fiz e ?1 “mapeiem não instâncias para não instâncias”. Uma não instância de uma 
codificação e é uma cadeia x E 40, 1)+ tal que não existe nenhuma instância i para a qual e(i) =x. É preciso que fix(x) = y para toda não 
instância x da codificação er, onde y é alguma não instância de e2, e que fi(x') =" para toda não instância x' de e2, onde y' é alguma não 
instância de ei. 

Para saber mais sobre classes de complexidade, consulte o artigo seminal de Hartmanis e Stearns [162]. 

7 Em uma carta a seu amigo John T. Graves, datada de 17 de outubro de 1856, Hamilton [157, p. 624] escreveu: “Descobri que alguns 
jovens se divertem muito com um novo jogo matemático que o Icosion fornece, no qual uma pessoa fixa cinco alfinetes em quaisquer 
cinco pontos consecutivos (...) e o outro jogador tenta inserir o que pela teoria descrita nesta carta sempre pode ser feito, quinze 
alfinetes em sucessão cíclica, de modo a passar por todos os pontos e terminar na proximidade imediata do alfinete com o qual o 
antagonista começou. 

s O nome “NP? significa, em inglês, “tempo polinomial não determinístico” (nondeterministic polynomial time). A classe NP foi 
estudada originalmente no contexto do não determinismo, mas este livro usa a noção um pouco mais simples, ainda que equivalente, de 
verificação. Hopcroft e Ullman [180] dão uma boa apresentação da NP-completude em termos de modelos não determinísticos de 
computação. 

Por outro lado, se o tamanho do circuito C é Q(2x), então um algoritmo cujo tempo de execução é O(2r) tem um tempo de execução que é 
polinomial em relação ao tamanho do circuito. Mesmo que P z NP essa situação não contradiria a NP-completude do problema; a 
existência de um algoritmo de tempo polinomial para um caso especial não implica que existe um algoritmo de tempo polinomial para 
todos os casos. 

10 Tecnicamente, definimos um ciclo em termos de vértices em vez de arestas (veja a Seção B.4). Por questão de clareza, abusamos da 
notação aqui e definimos o ciclo hamiltoniano em termos de arestas. 

mn De fato, qualquer base b, onde b > 7, serviria. A instância no início desta subseção é o conjunto S e alvo t na Figura 34.19 
interpretados em base 7, sendo S listado em sequência ordenada. 


3 ç ÁLGORITMOS DE APROXIMAÇÃO 


Muítos problemas de significado prático são NP-completos, mas apesar disso são demasiadamente importantes 
para que os abandonemos simplesmente porque não sabemos como determinar uma solução ótima em tempo 
polinomial. Mesmo quando um problema é NP-completo, ainda pode haver esperança. Temos no mínimo três modos 
de contornar a NP-completude. O primeiro é que, se as entradas reais são pequenas, um algoritmo com tempo de 
execução exponencial pode ser perfeitamente satisfatório. O segundo é que podemos conseguir isolar casos especiais 
importantes que podemos resolver em tempo polinomial. O terceiro é que poderíamos encontrar abordagens para 
determinar soluções quase ótimas em tempo polinomial (seja no pior caso ou no caso esperado). Na prática, quase 
ótimo muitas vezes é suficientemente bom. Denominamos um algoritmo que retorna soluções quase ótimas algoritmo 
de aproximação. Este capítulo apresenta algoritmos de aproximação de tempo polinomial para vários problemas NP- 
completos. 


Razões de desempenho para algoritmos de aproximação 


Suponha que estejamos trabalhando em um problema de otimização em que cada solução potencial tenha um custo 
positivo e que desejamos encontrar uma solução quase ótima. Dependendo do problema, podemos definir uma solução 
ótima como uma solução com o máximo custo possível ou uma solução com o mínimo custo possível; isto é, o problema 
pode ser um problema de maximização ou um problema de minimização. 

Dizemos que um algoritmo para um problema tem uma razão de aproximação r(n) se, para qualquer entrada de 
tamanho n, o custo C da solução produzida pelo algoritmo está a menos de um fator r(n) do custo C* de uma solução 
ótima: 

x 


EE 


máx < p(n) (35.1) 


Se um algoritmo consegue uma razão de aproximação de r(n), nós o denominamos algoritmo de r(n)- 
aproximação. As definições de razão de aproximação e algoritmo de aproximação r(n) se aplicam a problemas de 
minimização, bem como de maximização. Para um problema de maximização, O < C< C*, e a razão C*/C dá o fator 
que indica quanto o custo de uma solução ótima é maior que o custo da solução aproximada. De modo semelhante, 
para um problema de minimização, O < C* < C, e a razão C/C* dá o fator que indica quanto o custo da solução 
aproximada é maior que o custo de uma solução ótima. Como supomos que todas as soluções têm custo positivo, essas 
razões são sempre bem definidas. A razão de aproximação de um algoritmo de aproximação nunca é menor que 1, já 
que C/C* < 1 implica C*/C > 1. Então, um algoritmo de aproximação! 1 produz uma solução ótima, e um algoritmo de 
aproximação com uma razão de aproximação grande pode retornar uma solução muito pior que a solução ótima. 

Para muitos problemas temos algoritmos de aproximação de tempo polinomial com razões de aproximação 
pequenas e constantes, embora para outros problemas os algoritmos de aproximação de tempo polinomial mais 
conhecidos tenham razões de aproximação que crescem em finção do tamanho da entrada n. Um exemplo de tal 
problema é o problema da cobertura de conjuntos apresentado na Seção 35.3. 


Alguns problemas NP-completos permitem algoritmos de aproximação de tempo polinomial que podem conseguir 
razões de aproximação cada vez melhores, usando cada vez mais tempo de computação. Isto é, podemos permutar 
tempo de computação e qualidade da aproximação. Um exemplo é o problema da soma de subconjuntos estudado na 
Seção 35.5. Essa situação é bastante importante para merecer um nome exclusivo. 

Um esquema de aproximação para um problema de otimização é um algoritmo de aproximação que adota como 
entrada não somente uma instância do problema, mas também um valor e > 0 tal que, para qualquer e fixo, o esquema é 
um algoritmo de (1 + e)-aproximação. Dizemos que um esquema de aproximação é um esquema de aproximação de 
tempo polinomial se, para qualquer e > O fixo, o esquema é executado em tempo polinomial no tamanho n de sua 
instância de entrada. 

O tempo de execução de um esquema de aproximação de tempo polinomial pode aumentar muito rapidamente à 
medida que e diminui. Por exemplo, o tempo de execução de um esquema de aproximação de tempo polinomial 
poderia ser O(n,,e). No caso ideal, se e diminui por um fator constante, o tempo de execução para obter a aproximação 
desejada não deve aumentar mais do que um fator constante (embora não necessariamente o mesmo fator constante 
pelo qual e diminui). 

Dizemos que um esquema de aproximação é um esquema de aproximação de tempo completamente 
polinomial se é um esquema de aproximação e seu tempo de execução é polinomial em 1/e, bem como no tamanho n 
da instância de entrada. Por exemplo, o esquema poderia ter um tempo de execução O((1/e)2n,). Com tal esquema, 
qualquer redução de fator constante em e pode vir acompanhada por um aumento correspondente de fator constante no 
tempo de execução. 


Resumo do capítulo 


As quatro primeiras seções deste capítulo apresentam alguns exemplos de algoritmos de aproximação de tempo 
polinomial para problemas NP-completos, e a quinta seção apresenta um esquema de aproximação de tempo 
completamente polinomial. A Seção 35.1 começa com um estudo do problema de cobertura de vértices, um problema 
de minimização NP-completo que tem um algoritmo de aproximação com uma razão de aproximação igual a 2. A 
Seção 35.2 apresenta um algoritmo de aproximação com razão 2 para o caso do problema do caixeiro-viajante, no 
qual a função custo satisfaz a desigualdade triangular. Mostra também que, sem a desigualdade triangular, para qualquer 
constante r > 1, um algoritmo de 7-aproximação não pode existir a menos que P = NP. Na Seção 35.3, mostramos 
como usar um método guloso como um algoritmo de aproximação efetivo para o problema da cobertura de conjuntos, 
obtendo uma cobertura cujo custo é na pior das hipóteses um fator logarítmico maior que o custo ótimo. A Seção 35.4 
apresenta mais dois algoritmos de aproximação. Primeiro, estudamos a versão de otimização da satisfazibilidade 3- 
CNF e damos um algoritmo aleatorizado simples que produz uma solução com uma razão de aproximação esperada de 
8/7. Depois examinamos uma variante ponderada do problema de cobertura de vértices e mostramos como usar 
programação linear para desenvolver um algoritmo de aproximação 2. Finalmente, a Seção 35.5 apresenta um esquema 
de aproximação de tempo completamente polinomial para o problema da soma de subconjuntos. 


35.1 (O PROBLEMA DE COBERTURA DE VÉRTICES 


A Seção 34.5.2 definu o problema de cobertura de vértices e provou que ele é NP-completo. Lembre-se de que 
uma cobertura de vértices de um grafo não dirigido G = (V, E) é um subconjunto ” € V tal que, se (u, v) é uma 
aresta de G, então u E Vouv E V' (ou ambos). O tamanho de uma cobertura de vértices é o número de vértices que 
ela contém. 

O problema de cobertura de vértices é encontrar uma cobertura de vértices de tamanho mínimo em um grafo 
não dirigido dado. Denominamos tal cobertura de vértices cobertura de vér- tices ótima. Esse problema é a versão de 
otimização de um problema de decisão NP-completo. 


Embora não saibamos como determinar uma cobertura de vértices ótima em um grafo G em tempo polinomial, 
podemos encontrar eficientemente uma cobertura de vértices que é quase ótima. O algoritmo de aproximação a seguir 
adota como entrada um grafo não dirigido G e retorna uma cobertura de vértices para a qual é garantido que seu 
tamanho não é mais de duas vezes maior do que a cobertura de vértices ótima. 


(a) 


(e) (f) 


Figura 35.1 A operação de Arrrox-Vertex-CoVer. (a) O grafo de entrada G, que tem sete vértices e oito arestas. (b) A aresta (b, c), 
mostrada em sombreado de tommais escuro, é a primeira aresta escolhida por Arrrox-Vertex-CoVer. Os vértices b e c, mostrados em 
sombreado de tom mais claro, são adicionados ao conjunto C que contéma cobertura de vértices que está sendo criada. As arestas (a, 
b), (c, e) e (c, d), mostradas em linhas tracejadas, são eliminadas visto que agora estão cobertas por algum vértice em C. (c) A aresta (e, f 
)é escolhida; os vértices e e fsão adicionados a C. (d) A aresta (d, g) é escolhida; os vértices d e g são adicionados a C. (e) O conjunto 
C, que é a cobertura de vértices produzida por Arrrox-Verrex-CoVer, contémos seis vértices b,c, d, e,f; g. (f) A cobertura de vértices 
ótima para esse problema contém apenas três vértices: b, d e e. 


A Figura 35.1 ilustra a operação de Approx-Vertex-Cover em um grafo de exemplo. A variável C contém a 
cobertura de vértices que está sendo construída. A linha 1 inicializa C como o conjunto vazio. A linha 2 define E" como 
uma cópia do conjunto de arestas E[G] do grafo. O laço nas linhas 3-6 escolhe repetidamente uma aresta (u, v) de E”, 
adiciona suas extremidades u e v a € e elimma todas as arestas em E" que são cobertas por u ou v. O tempo de 
execução desse algoritmo é O(V + E), usando listas de adjacências para representar E”. 


Teorema 35.1 
Approx-Vertex-Cover é um algoritmo polinomial de 2-aproximação. 
Prova Já mostramos que Approx-Vertex-Cover é executado em tempo polinomial. 


O conjunto C de vértices que é retornado por Approx-Vertex-Cover é uma cobertura de vértices, visto que o 
algoritmo roda até que toda aresta em E[G] tenha sido coberta por algum vértice em €. 


Para ver que Approx-Vertex-Cover devolve uma cobertura de vértices que é no máximo duas vezes o tamanho de 
uma cobertura ótima, seja 4 o conjunto de arestas que foram escolhidas na linha 4 de Approx-Vertex-Cover. Para 
cobrir as arestas em 4, qualquer cobertura de vértices — em particular uma cobertura ótima C* — deve incluir no 
mínimo uma extremidade de cada aresta em 4. Duas arestas em 4 não compartilham uma extremidade, já que, uma vez 
escolhida uma aresta na linha 4, todas as outras arestas que são incidentes em suas extremidades são eliminadas de E" 
na linha 6. Assim, não há duas arestas em 4 cobertas pelo mesmo vértice de C.., e temos o limite inferior 


ICH > IA] (35.2) 


para o tamanho de uma cobertura de vértices ótima. Cada execução da linha 4 escolhe uma aresta para a qual nenhuma 
de suas extremidades já está em €, o que produz um limite superior (na verdade, um limite superior exato) para o 
tamanho da cobertura de vértices devolvida: 


ICI=2IAI. (35.3) 


Combinando as equações (35.2) e (35.3), obtemos 


[Cl =2 14] 
Cel" 


provando assim o teorema. 


Vamos refletir sobre essa prova. A princípio, poderíamos imaginar como é possível provar que o tamanho da 
cobertura de vértices devolvida por Approx-Vertex-Cover é no máximo duas vezes o tamanho de uma cobertura de 
vértices ótima, já que nem mesmo sabemos qual é o tamanho da cobertura de vértices ótima. Em vez de querermos 
saber qual é o tamanho exato de uma cobertura de vértices ótima, recorremos a um limite inferior para o tamanho. 
Como o Exercício 35.1-2 lhe pede para mostrar, o conjunto 4 de arestas que a linha 4 de Approx-Vertex-Cover 
seleciona é realmente um emparelhamento maximal no grafo G. (Um emparelhamento maximal é um 
emparelhamento que não é um subconjunto próprio de qualquer outro emparelhamento.) O tamanho de um 
emparelhamento maximal é, como demonstramos na prova do Teorema 35.1, um limite inferior para o tamanho de uma 
cobertura de vértices ótima. O algoritmo retorna uma cobertura de vértices cujo tamanho é no máximo duas vezes o 
tamanho do emparelhamento maximal 4. Determinando a razão entre o tamanho da solução retornada e o limite inferior, 
obtemos nossa razão de aproximação. Utilizaremos essa metodologia também em seções posteriores. 


Exercícios 
35.1-1 Dê um exemplo de grafo para o qual Approx-Vertex-Cover sempre produz um solução subótima. 


35.1-2 Prove que o conjunto de arestas escolhido na linha 4 de Approx-Vertex-Cover forma um emparelhamento 
maximal no grafo G. 


35.13 * 


O professor Biindchen propõe a seguinte heurística para resolver o problema de cobertura de vértices. 
Selecione repetidamente um vértice de grau mais alto e elimme todas as suas arestas incidentes. Dê um 
exemplo para mostrar que a heurística do professor não tem uma razão de aproximação de 2. (Sugestão: 
Experimente um grafo bipartido com vértices de grau uniforme à esquerda e vértices de grau variado à direita.) 


35.1-4 Dê um algoritmo guloso eficiente para determinar uma cobertura de vértices ótima para uma árvore em tempo 
linear. 


Pela prova do Teorema 34.12, sabemos que o problema de cobertura de vértices e o problema NP-completo 
do clique são complementares no sentido de que uma cobertura de vértices ótima é o complemento de um 
clique de tamanho máximo no grafo complemento. Essa relação implica que existe um algoritmo de 
aproximação de tempo polinomial com razão de aproximação constante para o problema do clique? Justifique 
sua resposta. 


35.1-5 


35.2 (ÓPROBLEMA DO CAIXEIRO-VIAJANTE 


No problema do caixeiro-viajante apresentado na Seção 34.5.4, temos um grafo não dirigido completo G = (V, E) 
que tem um custo inteiro não negativo c(u, v) associado a cada aresta (u, v) &E E e devemos encontrar um ciclo 
hamiltoniano de G com custo mínimo. Como uma extensão de nossa notação, seja c(4) o custo total das arestas no 
subconjunto 4 € E: 


QqA)= D c(u,v). 


(u,v)JEA 


Em nuitas situações práticas, o modo menos caro de ir de um lugar u a um lugar w é ir diretamente, sem nenhuma 
etapa intermediária. Em outros termos, eliminar uma parada intermediária nunca aumenta o custo. Formalizamos essa 
noção dizendo que a função custo c satisfaz a desigualdade triangular se, para todos os vértices u, v, w E V, 


c(u,w) < c(u,v) + c(v, w). 


A desigualdade triangular parece naturalmente válida, e ela é automaticamente satisfeita em muitas aplicações. Por 
exemplo, se os vértices do grafo são pontos no plano e o custo de viajar entre dois vértices é a distância euclidiana 
comum entre eles, a desigualdade triangular é satisfeita. Além disso, muitas funções custo além da distância euclidiana 
satisfazem a desigualdade triangular.) 

Como mostra o Exercício 35.2-2, o problema do caixeiro-viajante é NP-completo mesmo se exigirmos que a 
função custo satisfaça a desigualdade triangular. Assim, não devemos esperar encontrar um algoritmo de tempo 
polinomial para resolver esse problema com exatidão. Em vez disso, procuramos bons algoritmos de aproximação. 

Na Seção 35.2.1 examinamos um algoritmo de aproximação 2 para o problema do caixeiro-viajante com a 
desigualdade triangular. Na Seção 35.2.2 mostraremos que, sem a desigualdade triangular, não existe um algoritmo de 
aproximação de tempo polinomial com uma razão de aproximação constante a menos que P = NP. 


35.2.1 O PROBLEMA DO CAIXEIRO-VIAJANTE COM A DESIGUALDADE TRIANGULAR 


Aplicando a metodologia da seção anterior, calcularemos primeiro uma estrutura — uma árvore geradora mínima 
— cujo peso dá um limite inferior para o comprimento de um passeio ótimo do caixeiro-viajante. Depois usaremos a 
árvore geradora mínima para criar um passeio cujo custo não é mais que duas vezes o peso da árvore geradora mínima, 
desde que a função custo satisfaça a desigualdade triangular. O algoritmo a seguir implementa essa abordagem, 
chamando o algoritmo de árvore geradora mínima MS'E Prim da Seção 23.2 como uma sub-rotina. 


Arprox-TSP-Tour(G, c) 

1 selecione um vértice r € G.V para ser um vértice “raiz” 

2 calcule uma árvore geradora mínima T para G partindo da raiz r 
usando MST-Prim(G, c, 1) 

3 seja H a lista de vértices, ordenados de acordo com a ordem em que foram visitados 
pela primeira vez em um passeio de pré-ordem em T 

4 return o ciclo hamiltoniano H 


Lembre-se de que, na Seção 12.1, dissemos que um passeio de árvore em pré-ordem visita recursivamente todos 
os vértices da árvore e insere um vértice na lista de vértices quando o encontra pela primeira vez, antes de visitar 
qualquer de seus filhos. 


a) (d) o(a) ( d) 
(e) ele) 
O un Dn O) ONA SARRO 
(E) (o 
O O) 
(a) (b) (c) 


)—- O) D)— mto) 


(d) (e) 


Figura 35.2 A operação de Arrrox-tSp-tour. (a) Um grafo não direcionado completo. Os vértices estão em interseções de linhas de 
grade inteiras. Por exemplo, festá uma unidade à direita e duas unidades acima de h. A função custo entre dois pontos é a distância 
euclidiana normal. (b) Uma árvore geradora mínima T do grafo completo, como calculada por MSt-priM. O vértice a é o vértice raiz. São 
mostradas apenas arestas que estão na árvore geradora mínima. Acontece que os vértices são rotulados de tal modo que são 
adicionados à árvore principal por MSt-priM em ordem alfabética. (c) Um passeio de 7, começando ema. Um passeio completo da árvore 
visita os vértices na ordema, b,c,b,h,b,a,d,e,f,e,g,e,d, a. Um passeio em pré-ordem de T acrescenta um vértice à lista de vértices 
apenas quando ele é encontrado pela primeira vez, conforme indicado pelo ponto ao lado de cada vértice, produzindo a ordenação a, b, 
c,h,d, e, f, g. (d) Um passeio obtido pela visita aos vértices na ordem dada pelo passeio em pré-ordem, que é o passeio H retornado por 
Arrrox-tSp-tour. Seu custo total é aproximadamente 19,074. (e) Um passeio ótimo H* para o grafo completo dado. Seu custo total é 
aproximadamente 14,715. 


A Figura 35.2 ilustra a operação de Approx-TSP-Tour. A parte (a) da figura mostra um grafo não dirigido 
completo e a parte (b) mostra a árvore geradora mínima T que MST Prim fez crescer partindo do vértice de raiz a. A 
parte (c) mostra como um passeio em pré-ordem de T visita os vértices, e a parte (d) apresenta o passeio 
correspondente, que é o passeio devolvido por Approx-TSP-Tour. A parte (e) exibe um passeio ótimo, que é 
aproximadamente 23% mais curto. 

Pelo Exercício 23.2-2, até mesmo com uma implementação simples de MST-Prim, o tempo de execução de 
Approx-TSP-Tour é Q(V ,). Agora, mostramos que, se a função custo para uma instância do problema do caixeiro- 
viajante satisfaz a desigualdade triangular, então Approx-TSP-Tour retorna um passeio cujo custo não é mais do que 
duas vezes o custo de um passeio ótimo. 


Teorema 35.2 


Approx-TSP-Tour é um algoritmo polinomial de 2-aproximação para o problema do caixeiro-viajante com a 
desigualdade de triângulos. 


Prova Já vimos que Approx-TSP-Tour é executado em tempo polinomial. 

Seja H* um passeio ótimo para o conjunto de vértices dado. Obtemos uma árvore geradora eliminando qualquer 
aresta de um passeio, e o custo de cada aresta é não negativo. Portanto, o peso da árvore geradora mínima T calculado 
na linha 2 de Appox-TSP-Tour dá um limite inferior para o custo de um passeio ótimo, ou seja, 


cd(T) < c(H”). (35.4) 
Um passeio completo de T insere vértices na lista de vértices quando eles são visitados pela primeira vez e 


também sempre que voltamos a eles após uma visita a uma subárvore. Vamos denominar esse passeio completo W. O 
passeio completo de nosso exemplo dá a ordem 


E, 0,0;b;h:b,;0,Á0,), 6 DCD 


Visto que o passeio completo percorre todas as arestas de T' exatamente duas vezes, temos (estendendo nossa 
definição do custo c da maneira natural para tratar conjuntos múltiplos de arestas) 


c(W) = 2c(T) . (35.5) 
As equações (35.4) e (35.5) implicam que 
c(W) < 2c(H*) , (35.6) 


e portanto, o custo de W está a menos de um fator 2 do custo de um passeio ótimo. 

Infelizmente, o passeio completo W em geral não é um ciclo simples, já que visita alguns vértices mais de uma vez. 
Contudo, pela desigualdade triangular, podemos eliminar uma visita a qualquer vértice partindo de W, e o custo não 
aumenta. (Se eliminarmos um vértice v de W entre visitas a u e w, a ordenação resultante especifica ir diretamente de u 
para w.) Aplicando essa operação repetidas vezes, podemos eliminar tudo de W, exceto a primeira visita a cada vértice. 
Em nosso exemplo, isso deixa a ordenação 


E; DoldE, DRDS » 


Essa ordenação é a mesma que foi obtida por um passeio em pré-ordem da árvore T. Seja H o ciclo 
correspondente a esse passeio em pré-ordem. Ele é um ciclo hamiltoniano, visto que todo vértice é visitado exatamente 
uma vez, e é de fato o ciclo calculado por Approx-TSP-Tour. Visto que H é obtido pela eliminação de vértices do 
passeio completo W, temos 


c(H) < c(W). (35.7) 
Combinando as desigualdades (35.6) e (35.7) resultam c(H) < 2c(H.), o que conclui a prova. 


Apesar da bela razão de aproximação dada pelo Teorema 35.2, normalmente Approx-TSP-Tour não é a melhor 
escolha prática para esse problema. Existem outros algoritmos de aproximação que, em geral, funcionam muito melhor 
na prática (consulte as referências no final deste capítulo). 


35.2.2 O PROBLEMA GERAL DO CAIXEIRO-VIAJANTE 


Se eliminarmos a hipótese de que a função custo c satisfaz a desigualdade triangular, então não podemos encontrar 
bons passeios aproximados em tempo polinomial, a menos que P = NP. 


Teorema 35.3 


Se P % NP, então para toda constante 7 > 1, não existe nenhum algoritmo de aproximação de tempo polinomial 
com razão de aproximação 7 para o problema geral do caixeiro-viajante. 

Prova A prova é por contradição. Suponha ao contrário que, para algum número 7 > 1 exista um algoritmo de 
aproximação de tempo polinomial 4 com razão de aproximação 7. Sem perda da generalidade, supomos que 7 é um 
inteiro, arredondando-o se necessário. Então, mostraremos como usar 4 para resolver instâncias do problema do ciclo 
hamiltoniano (definido na Seção 34.2) em tempo polinomial. Visto que o Teorema 34.13 nos diz que o problema do 
ciclo hamiltoniano é NP-completo, o Teorema 34.4 implica que, se pudermos resolvê-lo em tempo polinomial, P= NP. 

Seja G = (V, E) uma instância do problema do ciclo hamiltoniano. Desejamos determinar eficientemente se G 
contém um ciclo hamiltoniano fazendo uso do algoritmo de aproximação hipotético 4. Transformamos G em uma 
instância do problema do caixeiro-viajante da maneira ilustrada a seguir. Seja G' = (V, E” o grafo completo em V, isto 
€, 


E'=(u,v:u,veVeuzv) 
Atribuímos um custo inteiro a cada aresta em E” da seguinte maneira: 


dude se (u,v)E E, 
pIVI+1 ou 
Podemos criar representações de G' e c a partir da representação de G em tempo polinomial em |V e |E]. 
Agora, considere o problema do caixeiro-viajante (G', c). Se o grafo original G tem um ciclo hamiltoniano H, então 
a função custo c atribui a cada aresta de H um custo 1 e, assim, (G”, c) contém um passeio de custo |V]. Por outro lado, 
se G não contém um ciclo hamiltoniano, qualquer passeio de G' deve usar alguma aresta que não está em E. Porém, 
qualquer passeio que utilize uma aresta que não está em E tem um custo de no mínimo 


(0IVI-D+A(VI-D=p|VIA4AIVI 
>plIVI 


Como as arestas que não estão em G são tão dispendiosas, existe uma lacuna de no mínimo 7|V entre o custo de 
um passeio que é um ciclo hamiltoniano em G (custo |V|) e o custo de qualquer outro passeio (custo no mínimo igual a 
r|V| + |V). Portanto, o custo de um passeio que não é um ciclo hamiltoniano em G é no mínimo um fator 7 + 1 maior do 
que o custo de um passeio que é um ciclo hamiltoniano em G. 

Agora, suponha que apliquemos o algoritmo de aproximação 4 ao problema do caixeiro-viajante (G”, c). Como é 
garantido que 4 retorna um passeio de custo não mais do que r vezes o custo de um passeio ótimo, se G contém um 
ciclo hamiltoniano, então 4 deve devolvê-lo. Se G não tem nenhum ciclo hamiltoniano, então 4 retorna um ciclo de 
custo maior que 71V|. Assim, podemos usar 4 para resolver o problema do ciclo hamiltoniano em tempo polinomial. 


A prova do Teorema 35.3 serve como exemplo de uma técnica geral para provar que não podemos aproximar um 
problema muito bem. Suponha que, dado um problema NP-dificil X, podemos produzir em tempo polinomial um 
problema de minimização Y'tal que instâncias “sim” de X correspondem a instâncias de Y com valor no máximo k (para 
algum k), mas que instâncias “não” de X correspondam a instâncias de Y com valor maior que rk. Então mostramos 
que, a menos que P = NP, não existe nenhum algoritmo de aproximação r para problema Y. 


Exercícios 


35.2-1 Suponha que um grafo não dirigido completo G = (V, E) com no mínimo três vértices tenha uma finção custo 
c que satisfaz a desigualdade triangular. Prove que c(u, v) > O para todo u, v E V. 


35.2-2 Mostre como podemos transformar em tempo polinomial uma instância do problema do caixeiro-viajante em 
outra instância cuja função custo satisfaça a desigualdade triangular. As duas instâncias devem ter o mesmo 
conjunto de passeios ótimos. Explique por que tal transformação em tempo polinomial não contradiz o 
Teorema 35.3, considerando P + NP. 


35.2-3 Considere a segunte heurística do ponto mais próximo para construir um passeio de caixeiro-viajante 
aproximado. Comece com um ciclo trivial consistindo em um único vértice escolhido arbitrariamente. Em cada 
etapa, identifique o vértice u que não está no ciclo, mas cuja distância até qualquer vértice no ciclo é mínima. 
Suponha que, nesse ciclo, o vértice que está mais próximo de u seja o vértice v. Estenda o ciclo para incluir u, 
inserindo u logo depois de v. Repita até que todos os vértices estejam no ciclo. Prove que essa heurística 
retorna um passeio cujo custo total não é mais do que duas vezes o custo de um passeio ótimo. 


35.2-4 No problema do caixeiro-viajante com gargalo desejamos determinar o ciclo hamiltoniano que minimiza o 
custo da aresta de maior custo no ciclo. Considerando que a função custo satisfaz a desigualdade triangular, 
mostre que existe um algoritmo de aproximação de tempo polinomial com razão de aproximação 3 para esse 
problema. (Sugestão: Mostre recursivamente que podemos visitar todos os nós em uma árvore geradora de 
gargalo, como vimos no Problema 23-3, exatamente uma vez, fazendo um passeio completo da árvore e 
saltando nós, mas sem saltar mais de dois nós intermediários consecutivos. Mostre que a aresta de maior 
custo em uma árvore geradora de gargalo tem um custo que é no máximo o custo da aresta de maior custo em 
um ciclo hamiltoniano de gargalo.) 


35.2-5 Suponha que os vértices para uma instância do problema do caixeiro-viajante sejam pontos no plano e que o 
custo c(u, v) seja a distância euclidiana entre os pontos u e v. Mostre que um passeio ótimo nunca cruza com 
ele mesmo. 


35.3 (OPROBLEMA DE COBERTURA DE CONJUNTOS 


O problema de cobertura de conjuntos é um problema de otimização que modela muitos problemas de alocação 
de recursos. Seu problema de decisão correspondente generaliza o problema NP-completo de cobertura de vértices e, 
portanto, também é NP-difícil. Porém, o algoritmo de aproximação desenvolvido para tratar o problema de cobertura 
de vértices não se aplica aqui, então precisamos tentar outras abordagens. Examinaremos uma heurística gulosa simples 
com uma razão de aproximação logarítmica. Isto é, à medida que o tamanho da instância aumenta, o tamanho da 
solução aproximada pode crescer em relação ao tamanho de uma solução ótima. Contudo, como a função logaritmo 
cresce muito lentamente, esse algoritmo de aproximação pode, mesmo assim, dar resultados úteis. 

Uma instância (X, F) do problema de coberta de conjuntos consiste em um conjunto finito X e uma família F de 
subconjuntos de X, tal que todo elemento de X pertence a, no mínimo, um subconjunto em F: 


SER 
Dizemos que um subconjunto S & F cobre seus elementos. O problema é encontrar um subconjunto de tamanho 
mínimo € F cujos membros cubram todo o X: 
x=(s. (35.8) 


Dizemos que qualquer que satisfaça a equação (35.8) cobre X. A Figura 35.3 ilustra o problema de cobertura de 
conjuntos. O tamanho de C é o múmero de conjuntos que ele contém, em vez do número de elementos individuais 


nesses conjuntos, visto que cada subconjunto de C que cobre X deve conter todos os |X| elementos individuais. Na 
Figura 35.3, a cobertura do conjunto mínimo tem tamanho 3. 

O problema de cobertura de conjuntos abstrai muitos problemas combinatórios que surgem comumente. Como um 
exemplo simples, suponha que X represente um conjunto de habilidades necessárias para resolver um problema e que 
temos um dado conjunto de pessoas disponíveis para trabalhar no problema. Desejamos formar um comitê que 
contenha o menor número de pessoas possível tal que, para toda habilidade requerida em X, exista no mínimo um 
membro do comitê que tenha essa habilidade. Na versão de decisão do problema de cobertura de conjuntos, 
perguntamos se existe ou não uma cobertura de tamanho no máximo k, onde k é um parâmetro adicional especificado 
na instância do problema. A versão de decisão do problema é NP-completa, como o Exercício 35.3-2 pede para 
mostrar. 


Um algoritmo de aproximação guloso 


O método guloso funciona escolhendo, em cada fase, o conjunto S que cobre o maior número de elementos 
restantes que não estão cobertos. 


GREEDY-SET-COVER(X, %3) 


1 U=X 

2 G=0 

3 whileU=ty 

4 selecione um S E % que maximiza ISNU| 
5 U=uU-s 

6 6=€U ISI 

7 retumG 


Figura 35.3 Uma instância (X, F) do problema de cobertura de conjuntos, onde X consiste nos 12 pontos pretos cF=(S ,, 55,54 Sp Ss 
Se). Uma cobertura de conjuntos de tamanho mínimo é =(S,, S, $5). O algoritmo guloso produz uma cobertura de tamanho 4 
selecionando os conjuntos Si, S4, Sse S3ou os conjuntos Si, S4, Ss e Se, emordem. 


No exemplo da Figura 35.3, Greedy-Set-Cover adiciona a , em ordem, os conjuntos S!, S4 e S,, seguidos por S;, 
ou por S,. 

O algoritmo finciona da maneira descrita a seguir. O conjunto U contém, em cada estágio, o conjunto de 
elementos não cobertos restantes. O conjunto contém a cobertura que está sendo construída. A linha 4 é a etapa de 
tomada de decisão gulosa, que escolhe um subconjunto S que cobre o maior número possível de elementos não 
cobertos (decidindo empates arbitrariamente). Depois de S ser selecionado, a linha 5 remove seus elementos U e a linha 
6 coloca $S em. Quando o algoritmo termina, o conjunto contém uma subfamília de F que cobre X. 

É fácil implementar o algoritmo Greedy-Set-Cover para execução em tempo polinomial em |X] e |F|. Visto que o 
número de iterações do laço nas linhas 3-6 é limitado por cima por min(/X|, |F|) e que podemos implementar o corpo 
do laço para ser executado no tempo O(|S||F|), uma implementação simples é executada no tempo O(|SI|F| min(|X|,|F|)). 
O Exercício 35.3-3 pede um algoritmo de tempo linear. 


Análise 
Agora, mostramos que o algoritmo guloso devolve uma cobertura de conjuntos que não é muito maior que uma 
cobertura de conjuntos ótima. Por conveniência, neste capítulo denotaremos por H(d) o d-ésimo número harmônico 


d 
1/1 
b? i=1 / (consulte a Seção A.1). Como condição de contorno, definimos H(0) = 0. 


Teorema 35.4 


Greedy-Set-Cover é um algoritmo polinomial de 7(n)-aproximação, onde 
p(n) = H(max(ISI :S e 3)). 


Prova Já mostramos que Greedy-Set-Cover é executado em tempo polinomial. 

Para mostrar que Greedy-Set-Cover é um algoritmo de r(n)-aproximação atribuímos um custo 1 a cada conjunto 
selecionado pelo algoritmo, distribuímos esse custo pelos elementos cobertos pela primeira vez e depois usamos esses 
custos para deduzir a relação desejada entre o tamanho de uma cobertura de conjunto ótima * e o tamanho da 
cobertura de conjunto C devolvida pelo algoritmo. Seja S, o i-ésimo subconjunto selecionado por Greedy-Set-Cover; o 
algoritmo incorre em um custo de 1 quando acrescenta S; a . Desdobramos esse custo da seleção de .S, uniformemente 
entre os elementos cobertos pela primeira vez por S, . Seja c, o custo alocado ao elemento x, para cada x E X. O 
custo assim desdobrado é atribuído a cada elemento somente uma vez, quando ele é coberto pela primeira vez. Se x é 
coberto pela primeira vez por S,, então 

1 


E TENTE 


Cada etapa do algoritmo atribui uma unidade de custo e, portanto, 


IGl=5c.. (35.9) 
xeX 


Cada elemento x E X está em, no mínimo, um conjunto da cobertura ótima C*, portanto temos 


DD BE bu (35.10) 
Se6* xes xeX 
Combinando a equação (35.9) e a desigualdade (35.10), temos que 


MBlES Teu (35.11) 


Se€6* xES 


O restante da prova se baseia na seguinte desigualdade fundamental, que provaremos em breve. Para qualquer S 
que pertença à família F, 


5 tos; (35.12) 


xes 


Das desigualdades (35.11) e (35.12), decorre que 


61 <S H(ISI) 


Se6* 


<IGI.H(max(ISl:S e %) 


o que prova o teorema. 
Resta apenas provar a desigualdade (35.12). Considere qualquer conjunto S E F e qualquer i = 1,2,..., |, e seja 


u=IS-(SUS,U-- US) 


o número de elementos em S que permanecem não cobertos depois de o algoritmo ter selecionado os conjuntos S,, S,, 
«. S, . Definimos w, = |S| como o número de elementos de S que estão inicialmente não cobertos. Seja k o índice 
mínimo tal que u, = 0, de modo que cada elemento em S é coberto por no mínimo um dos conjuntos S,, S,, ..., Sp € 
algum elemento em S não é coberto por S, US, U.. US -1.Então,u,-1>u,eu,-1-—u, elementos de S são 
cobertos pela primeira vez por S;, para i = 1,2,..., k. Assim, 


1]; 
C=) (U44—U))—————————————— 
> 3 : LS, (SUS, UJS). 
Observe que 

IS,-(SUS,U- US DI>IS-(SUS,U--US )I 

i-1º 


porque a escolha gulosa de S, garante que S não pode cobrir mais elementos novos que 5, (caso contrário, o 
algoritmo teria escolhido ;S em vez de S;). Consequentemente, obtemos 


1 
> tê, = > lia Up 
xeS i=1 U,1 


Agora, limitamos essa quantidade da seguinte maneira: 


ss (porque j<u,1) 


) = E) (porque a soma é telescópica) 


( 

= H(u,) (porque H(0) = 0) 
( 

o que conclui a prova da desigualdade (35.12). 


Corolário 35.5 


Greedy-Set-Cover é um algoritmo polinomial de (In |X|--1)-aproximação. 
Prova Use a desigualdade (A.14) e o Teorema 35.4. 


Em algumas aplicações, maxt|S| :S E F) é uma constante pequena e, assim, a solução devolvida por Greedy-S et- 
Cover é no máximo um multiplo constante pequeno, maior que a ótima. Uma aplicação desse tipo ocorre quando essa 
heurística encontra uma cobertura de vértices aproximada para um grafo cujos vértices têm no máximo grau 3. Nesse 
caso, a solução encontrada por Greedy-Set-Cover não é mais do que H(3) = 11/6 vezes maior do que uma solução 
ótima, o que garante um desempenho um pouco melhor do que o de Approx-Vertex-Cover. 


Exercícios 


35.3-1 Considere cada uma das seguintes palavras um conjunto de letras: farid, dash, dram, heard, lost, nose, shun, 
slate, snare, thread). Mostre qual cobertura de conjuntos Greedy-Set-Cover produz quando os empates são 
quebrados em favor da palavra que aparece em primeiro lugar no dicionário. 


35.3-2 Mostre que a versão de decisão do problema de cobertura de conjuntos é NP-completa, reduzindo o 
problema de cobertura de vértices. 


35.3-3 
Mostre como implementar Greedy-Set-Cover de tal maneira que ele seja executado no tempo O O seHIs) 


35.3-4 Mostre que a forma mais fraca do Teorema 35.4 a seguir é trivialmente verdadeira: 
IGI < IG* max(ISI:Se 3). 


35.3-5 Greedy-Set-Cover pode devolver várias soluções diferentes, dependendo de como decidimos os empates na 
linha 4. Dê um procedimento Bad-Set-Cover-Instance(n) que devolva uma instância de n elementos do 
problema de cobertura de conjuntos para a qual, dependendo de como decidimos os empates na linha 4, 


Greedy-Set-Cover pode devolver uma quantidade de soluções diferentes que é exponencial em n. 


35.4 ALEATORIZAÇÃO E PROGRAMAÇÃO LINEAR 


Nesta seção, estudaremos duas técnicas úteis para o projeto de algoritmos de aproximação: aleatorização e 
programação linear. Apresentaremos um algoritmo aleatorizado simples para uma versão de otimização de 
satisfazibilidade 3-CNF e depois usaremos programação linear para ajudar a projetar um algoritmo de aproximação 
para uma versão ponderada do problema de cobertura de vértices. Esta seção apenas toca na superfície dessas duas 
técnicas eficientes. As notas do capítulo apresentam referências para estudo adicional dessas áreas. 


Um algoritmo de aproximação aleatorizado para satisfazibilidade MAX-3-CNF 


Exatamente como os algoritmos aleatorizados calculam soluções exatas, alguns algoritmos aleatorizados calculam 
soluções aproximadas. Dizemos que um algoritmo aleatorizado para um problema tem uma razão de aproximação 
r(n) se, para qualquer entrada de tamanho n, o custo esperado € da solução produzida pelo algoritmo aleatorizado 
está a menos de um fator 7(n) do custo C* de uma solução ótima: 

má E] < p(n) (35.13) 

Denominamos um algoritmo aleatorizado que consegue uma razão de aproximação r(n) algoritmo aleatorizado 
de r(n)-aproximação r(n). Em outras palavras, um algoritmo de aproximação aleatorizado é semelhante a um algoritmo 
de aproximação determinístico, exceto que a razão de aproximação é para o custo esperado. 

Uma instância específica de satisfazibilidade 3-CNTF, definida na Seção 34.4, pode ou não ser satisfazível. Para ser 
satisfazível, é preciso que exista uma atribuição das variáveis, de modo que toda cláusula tenha valor 1. Se uma instância 
não é satisfazível, seria interessante calcular quão “próxima” de satisfazível ela está, isto é, determinar uma atribuição das 
variáveis que satisfaça o maior número possível de cláusulas. Denominamos o problema de maximização resultante 
satisfazibilidade MAX-3-CNF. A entrada para a satisfazibilidade MAX-3-CNF é a mesma da satisfazibilidade 3- 
CNF, e o objetivo é retornar uma atribuição das variáveis que maximize o número de cláusulas de valor 1. Agora 
mostramos que atribuir aleatoriamente cada variável com 1 com probabilidade 1/2 e com O com probabilidade 1/2 
resulta em algoritmo aleatorizado de aproximação 8/7. De acordo com a definição de satisfazibilidade 3-CNF da Seção 
34.4, cada cláusula deve consistir em exatamente três literais distintos. Além disso, supomos que nenhuma cláusula 
contém, ao mesmo tempo, uma variável e sua negação (o Exercício 35.4-1 pede para eliminar esta última hipótese). 


Teorema 35.6 


Dada uma instância de satisfazbildade MAX-3-CNF com n variáveis x,, Xx,,..., x, e m cláusulas, o algoritmo 
aleatorizado que atribui independentemente cada variável com 1 com probabilidade 1/2 e com O com probabilidade 1/2 
é um algoritmo aleatorizado de razão de aproximação 8/7. 


Prova Suponha que atribuímos independentemente cada variável com 1 com probabilidade 1/2 e com O com 
probabilidade 1/2. Para i = 1,2, ..., m, definimos a variável aleatória indicadora 


Y, = Ifa cláusula i é satisfeita) , 


de modo que Y, = 1 desde que tenhamos atribuído no mínimo um dos literais na i-ésima cláusula com 1. Visto que 
nenhum literal aparece mais de uma vez na mesma cláusula, e como supomos que nenhuma variável e sua negação 
aparecem ao mesmo tempo na mesma cláusula, as configurações dos três literais em cada cláusula são independentes. 
Uma cláusula não é satisfeita somente se todos os seus três literais são atribuídos com O e, assim, Prfcláusula i não é 


satisfeita) = (1/2)3 = 1/8. Assim, Pricláusula i é satisfeita ) = 1 — 1/8 = 7/8. Então, pelo Lema 5.1, temos E[Y,] = 7/8. 
Seja Yo número global de cláusulas satisfeitas, de modo que Y= Y + Y +... + Y.. Então, temos 


dE 


= > E[Y] (por linearidade de esperança) 
i=1 


ErvI= 


m 


=5 7/8 
i=1 
=Ym/8 


É claro que m é um limite superior para o número de cláusulas satisfeitas e, consequentemente, a razão de 
aproximação é no máximo m/(7m/8) = 8/7. 


Aproximação de cobertura de vértices ponderada utilizando programação linear 


No problema de cobertura de vértices de peso mínimo, temos um grafo não dirigido G = (V, E) no qual cada 
vértice v &€ V tem um peso positivo associado w(v). Para qualquer cobertura de vértices V € V, definimos o peso da 
cobertura de vértices w(V” = 3»€EY w(v). A meta é encontrar uma cobertura de vértices de peso mínimo. 

Não podemos aplicar o algoritmo usado para cobertura de vértices não ponderada nem podemos usar uma 
solução aleatória; ambos os métodos podem retornar soluções que estão longe de ótimas. Porém, calcularemos um 
limite imferior para o peso da cobertura de vértices de peso mínimo usando um programa linear. Então, 
“arredondaremos” essa solução e a usaremos para obter uma cobertura de vértices. 

Suponha que associamos uma variável (v) a cada vértice v &E Ve que definimos x(v) iguala O oua 1 para cada v 
E V. Inserimos v na cobertura de vértices se e somente se x(v) = 1. Então, podemos escrever a seguinte restrição: 
para qualquer aresta (u, v), no mínimo um dentre u e v deve estar na cobertura de vértices como x(u) + x(v) > 1. Essa 
visão dá origem ao seguinte pro- grama inteiro 0-1 para encontrar uma cobertura de vértices de peso mínimo: 


minimizar >Suw(vax(v) (35.14) 
veV 
sujeito a 
x +x(v) > 1 para cada (u,v) E E (35.15) 
x(v) e (0,1) para cada (u,v) € V. (35.16) 


No caso especial em que todo os pesos w(v) são iguais a 1, essa formulação é a versão de otimização do 
problema de cobertura de vértices NP difícil Contudo, suponha que eliminamos a restrição x(v) E (0, It ea 
substituímos por O < x(v) < 1. Então, obtemos o seguinte programa linear, conhecido como relaxação linear: 


minimizar >Suw(vx(v) (35.17) 
veVv 
sujeito a 
xl) +x(v) > 1 para cada v € E (35.18) 
x(v) < 1 para cada v € V (35.19) 
x(v) > 0 para cada v e V. (35.20) 


Qualquer solução viável para o programa inteiro 0-1 nas linhas (35.14)-(35.16) também é uma solução viável para 
o programa linear nas linhas (35.17)-(35.20). Portanto, o valor de uma solução ótima para o programa linear dá um 


limite imferior para o valor de uma solução ótima para o programa inteiro 0-1 e, por consequência, um limite inferior 
para o peso ótimo no problema de cobertura de vértices de peso mínimo. 

O procedimento a seguir usa a solução para a relaxação linear para construir uma solução aproximada para o 
problema de cobertura de vértices de peso mínimo: 


Arrrox-MIN-WEeIGHT-VC(G, w) 
C=g 
calcular x, uma solução ótima para o programa linear nas linhas (35.17)-(35.20) 
for cadav e V 
if x (v) > 1/2 
EC = Cj) 


RR QN 


6 returnC 


O procedimento Approx-Min- Weight- VC funciona da seguinte maneira: a linha 1 inicializa a cobertura de vértices 
como vazia. A linha 2 formula o programa linear nas linhas (35.17)— 35.20) e depois resolve esse programa linear. 
Uma solução ótima dá a cada vértice v um valor associado x (v), onde O <x (v) < 1. Usamos esse valor para orientar 
a escolha dos vértices a adicionar à cobertura de vértices € nas linhas 3-5. Se x (v) > 1/2, adicionamos v a C; caso 
contrário, não adicionamos. Na realidade, estamos “arredondando” cada variável fracionária na solução do programa 
linear para O ou 1, de modo a obter uma solução para o programa inteiro 0-1 nas linhas (35.14)-(35.16). Finalmente, a 
linha 6 devolve a cobertura de vértices €. 


Teorema 35.7 


O algoritmo Approx-Min-Weight- VC é um algoritmo polinomial de 2-aproximação para o problema de cobertura de 
vértices de peso mínimo. 


Prova Como existe um algoritmo de tempo polinomial para resolver o programa linear na linha 2 e como o laço for das 
linhas 3-5 é executado em tempo polinomial, Approx-Min-Weight-- VC é um algoritmo de tempo polinomial. 

Agora mostramos que Approx-Min- Weight- VC é um algoritmo de 2-aproximação. Seja C* uma solução ótima 
para o problema de cobertura de vértices de peso mínimo, e seja z* o valor de uma solução ótima para o programa 
linear nas linhas (35.17)-(35.20). Visto que uma cobertura de vértices ótima é uma solução viável para o programa 
linear, z* deve ser um limite inferior para w(C*), isto é, 


ELE: (35.21) 


Em seguida, afirmamos que, arredondando os valores fracionários das variáveis x(v), produzimos um conjunto € 
que é uma cobertura de vértices e satisfaz w(C) < 2z,. Para ver que C é uma cobertura de vértices, considere qualquer 
aresta (u, v) E E. Pela restrição (35.18), sabemos que x(1) + x(v) > 1, o que implica que pelo menos um dentre x(u) 
e x(v) é no mínimo 1/2. Portanto, no mínimo um dentre u e v é incluído na cobertura de vértices, e então toda a aresta 
estará coberta. 

Agora consideramos o peso da cobertura. Temos 


ZE Do to(o)x(0) 
> w(v)x(v) 


veV:x(v)>1/2 
> >, wo): 
veV:x(v)>1/2 

1 
=> w(v):— 
Dos 
1 
ga) 


= = UC) (35.22) 


IV 


N|pm 


Combinando as desigualdades (35.21) e (35.22) obtemos 
vc) < 27" < 20(C' 


e, consequentemente, Approx-Min-Weight- VC é um algoritmo de 2-aproximação. 


Exercícios 


35.4-1 


35.4-2 


35.4-3 


35.4-4 


Mostre que, mesmo se permitirmos que uma cláusula contenha ao mesmo tempo uma variável e sua negação, 
definir uma variável aleatoriamente como 1 com probabilidade 1/2 e como O com probabilidade 1/2 ainda 
resulta em um algoritmo aleatorizado de 8/7-aproximação. 


O problema de satisfazibilidade MAX-CNF é semelhante ao problema de satisfazibildade MAX-3-CNF, 
exceto por não restringir que cada cláusula tenha exatamente três literais. Dê um algoritmo aleatorizado de 2- 
aproximação para o problema de satisfazibildade MAX-CNF. 


No problema MAX-CUT, temos um grafo não dirigido não ponderado G = (V, E). Definimos um corte (S, V 
— S) como no Capítulo 23 e o peso de um corte como o número de arestas que cruzam o corte. A meta é 
encontrar um corte de peso máximo. Suponha que, para cada vértice v inserimos, aleatória e 
independentemente, v em S com probabilidade 1/2 e em V— S com probabilidade 1/2. Mostre que esse 
algoritmo é um algoritmo aleatorizado de 2-aproximação. 


Mostre que as restrições na linha (35.19) são redundantes no sentido de que, se as eliminarmos do programa 
linear das linhas (35.17)-(35.20), qualquer solução ótima para o programa linear resultante deve satisfazer 
x(v)<1 para cadav E V 


35.5 (OPROBLEMA DA SOMA DE SUBCONJUNTOS 


Lembre-se de que dissemos na Seção 34.5.5, que uma instância do problema de soma de subconjuntos é um par 
(S, t), onde S é um conjunto (x,, x,,..., x,+ de inteiros positivos e t é um inteiro positivo. Esse problema de decisão 
pergunta se existe um subconjunto de S cuja soma seja exatamente o valor alvo t. Como vimos na Seção 34.5.5, esse 
problema é NP-completo. 

O problema de otimização associado a esse problema de decisão surge em aplicações práticas. No problema de 
otimização, desejamos encontrar um subconjunto de (x,, x,,..., x, cuja soma seja a maior possível, mas não maior que 
t. Por exemplo, podemos ter um caminhão que não pode transportar mais de t quilogramas e n caixas diferentes para 


despachar, das quais a i-ésima caixa pesa x, quilogramas. Desejamos encher o caminhão com a carga mais pesada 
possível, sem exceder o limite de peso dado. 

Nesta seção, apresentamos um algoritmo de tempo exponencial que calcula o valor ótimo para esse problema de 
otimização e depois mostramos como modificar o algoritmo de modo que ele se torne um esquema de aproximação de 
tempo completamente polinomial. (Lembre-se de que um esquema de aproximação de tempo completamente polinomial 
tem um tempo de execução que é polinomial em 1/e, bem como no tamanho da entrada.) 


Um algoritmo de tempo exponencial exato 


Suponha que calculamos, para cada subconjunto S” de S, a soma dos elementos em S" e então selecionamos, entre 
os subconjuntos cuja soma não excede t, aquele cuja soma seja a mais próxima de t. É claro que esse algoritmo 
devolveria a solução ótima, mas ele poderia demorar tempo exponencial. Para implementar esse algoritmo, poderíamos 
utilizar um procedimento iterativo que, na iteração i, calcula as somas de todos os subconjuntos de (x,, X5,..., X;) 
usando como ponto de partida as somas de todos os subconjuntos de fx,, x,,..., x;-1). Ao fazer isso, perceberíamos 
que tão logo um determinado subconjunto S” tivesse uma soma maior do que t, não haveria nenhuma razão para mantê- 
lo, já que nenhum superconjunto de S" poderia ser a solução ótima. Agora damos uma implementação dessa estratégia. 

O procedimento Exact- Subset- Sum toma um conjunto de entrada S = (x,, x,,..., x,) e um valor alvo t. Veremos 
seu pseudocódigo em breve. Esse procedimento calcula iterativamente L,, a lista de somas de todos os subconjuntos de 
(x ,,..., X;+ que não excedem t e depois devolve o valor máximo em Z. 

Se L é uma lista de inteiros positivos e x é um outro inteiro posítivo, seja L + x a lista de inteiros derivados de L 
somando x a cada elemento de L. Por exemplo, se L = (1,2,3,5,9), entãoL +2=(3,4,5, 7, 11). Também usamos 
essa notação para conjuntos, de modo que 


Stx=(stxises. 


Usamos também um procedimento auxiliar Merge-Lists(L, L” que retorna a lista ordenada, que é o resultado da 
intercalação de suas duas listas ordenadas de entrada L e L”, após a remoção de valores duplicados. Como o 
procedimento Merge que usamos na ordenação por intercalação (Seção 2.3.1), Merge-Lists é executado no tempo 
O(IL| + |L')). (Omitimos o pseudocódigo para 

Exacr-SuBsET-SUM(S, t) 

= IS! 
L,= (0) 
fori=1ton 


1 

Z 

3 

4 L, = MERGE-LISTS(L,,,L, | +X) 

5 elimine de L, todo elemento maior que t 
6 return o maior elemento em L, 


Para ver como Exact-Subset- Sum funciona, seja P, o conjunto de todos os valores que podem ser obtidos pela 
seleção de um subconjunto (possivelmente vazio) de fx ,, x,,..., x;) e adição de seus elementos. Por exemplo, se $S = 
(1,4, 5), então 


PR=Uu, 
Fo = MA) 
PF =tLAS 9,40. 


Dada a identidade 


P=P,. +52), (35.23) 


podemos provar por indução em i (veja o Exercício 35.5-1) que a lista L, é uma lista ordenada que contém cada 
elemento de P, cujo valor não é maior que t. Visto que o comprimento de L, pode ser até 2i, Exact-Subset-Sum é um 
algoritmo de tempo exponencial em geral, embora seja um algoritmo de tempo polinomial nos casos especiais em que £ 
é polinomial em |S| ou todos os números em S são limitados por um polinômio em [8]. 


Um esquema de aproximação de tempo completamente polinomial 


Podemos derivar um esquema de aproximação de tempo completamente polinomial para o problema da soma de 
subconjuntos “desbastando” cada lista L, depois de criada. A ideia que fundamenta o desbaste é que, se dois valores 
em L estão próximos um do outro, então, visto que o que queremos é uma solução aproximada, não precisamos manter 
ambos explicitamente. Mais exatamente, usamos um parâmetro de desbaste d tal que O < d < 1. Quando desbastamos 
uma lista L usando o parâmetro de desbaste d, eliminamos o maior número possível de elementos de L, de modo tal 
que, se L' é o resultado do desbaste de L, então para cada elemento y que foi eliminado de L ainda existe um elemento 
z em L' que se aproxima de y, isto é, 


LD <z<y. (35.24) 
1+ó k 
Podemos pensar em z como um “representante” de y na nova lista L”. Cada elemento y eliminado é representado 
por um elemento z restante que satisfaz a desigualdade (35.24). Por exemplo, se d = 0,1 e 


L = (10,11,12,15,20,21,22,23,24,29), 
então podemos desbastar L para obter 


E = 10, 12,18, 20,25,28), 


onde o valor eliminado 11 é representado por 10, os valores eliminados 21 e 22 são representados por 20, e o valor 
eliminado 24 é representado por 23. Como todo elemento da versão desbastada da lista também é um elemento da 
versão original da lista, o desbaste pode reduzir drasticamente o número de elementos mantidos na lista, ao mesmo 
tempo que mantém um valor representativo próximo (e ligeramente menor) na lista para cada elemento eliminado. 

O procedimento a seguir desbasta a lista L = (Y,, Y»,.., Ym) No tempo Q(m), dados L e d e supondo que L está 
ordenada em sequência monotonicamente crescente. A saída do procedimento é uma lista desbastada e ordenada. 


Trim(L,6) 

1 sejam o comprimento de L 

2 L=t(y) 

3 último =y, 

4 fori=2tom 

5 ify,>último - (1 +06) // y, > último porque L está ordenada 
6 anexar y, ao final de L' 

7 último = y, 


8 retumn [/' 


O procedimento examina os elementos de L em ordem monotonicamente crescente. Um número é anexado à lista 
retornada L” somente se ele é o primeiro elemento de £ ou se não pode ser representado pelo número mais recente 
inserido em L”. 


Dado o procedimento Trim, podemos construir nosso esquema de aproximação da maneira descrita a seguir. Esse 
procedimento toma como entrada um conjunto S = (x ,, x,,..., x,+ de n inteiros (em ordem arbitrária), um inteiro alvo £ 
e um “parâmetro de aproximação”, e onde 


O<e<l. (35.25) 


Devolve um valor z cujo valor encontra-se a menos de um fator 1 + e da solução ótima. 


AppRrOX-SUBSET-SUM(S, t, €) 


JOG ER QONm 


8 


n= 15 
Lo = 0) 
fori=lton 
L,= MercE-Lists(L.,,L. +X) 

L = TriM(L, e/2n) 

elimine de L, todo elemento maior que t 
seja z* o maior valor em L. 
return z* 


A linha 2 inicializa a lista Ly como a lista que contém apenas o elemento 0. O laço for das linhas 3-6 calcula L, 
como uma lista ordenada que contém uma versão adequadamente desbastada do conjunto P,, eliminados todos os 
elementos maiores que t . Como L, é criada a partir de L -1!, temos de assegurar que o desbaste repetido não introduza 
imprecisão composta excessiva. Mais adiante veremos que Approx-Subset- Sum devolve uma aproximação correta, se 


existir. 


Como exemplo, suponha que tenhamos a instância 


S = (104, 102,201,101) 


com t = 308 e e = 0,40. O parâmetro de desbaste d é e/8 = 0,05. Approx-Subset- Sum calcula os valores a seguir nas 
linhas indicadas: 


linha 2: L, = (0), 


linha 4: L, = (0,104), 
linha 5: L, = (0,104), 
linha 6: L, = (0,104), 


linha 4: L, = (0,102,104,206) , 

linha 5: L, = (0,102,206) 

linha 6: L, = (0,102,206) , 

linha 4: L, = (0,102, 201, 206, 303, 407) , 
linha 5: L, = (0,102, 201,303, 407), 


linha 6: L, = (0, 102,201,303), 


linha 4: L, = (0,101,102, 201, 203, 302, 303, 404) , 
linha 5: L, = (0,101,201, 302, 404), 
linha 6: L, = (0,101,201, 302). 


O algoritmo devolve z* = 302 como sua resposta, que se encontra a bem menos de e = 40% da resposta ótima 
307 = 104 + 102 + 101; de fato, ela está a menos de 2%. 


Teorema 35.8 


Approx-Subset- Sum é um esquema de aproximação de tempo completamente polinomial para o problema da soma de 
subconjuntos. 


Prova As operações de desbaste L, na linha 5 e de eliminação em L, de todo elemento maior que t mantêm a seguinte 
propriedade: todo elemento de L, também é um elemento de P,. Portanto, o valor z devolvido na linha 8 é de fato a 
soma de algum subconjunto de S. Seja y* € P uma solução ótima para o problema da soma de subconjuntos. Então, 
pela linha 6, sabemos que z* < y*. Pela desigualdade (35.1), precisamos mostrar que y*/z* < 1 + e. Devemos também 
mostrar que o algoritmo é executado em tempo polinomial, tanto em 1/e quanto no tamanho da entrada. 

O Exercício 35.5.-2 pede que você mostre que, para todo elemento y em P, que é no máximo £, existe um 
elemento z &E L; tal que 


E O a (35.26) 
(1 +e/2n) . 


A desigualdade (35.26) deve ser válida para y* E P, e, portanto, há em elemento z E L, tal que 


a * ” 
(1+e/2n) 
e, assim, 
vt ey 
: <h E (35.27) 


Visto que existe um z € L, que satisfaz a desigualdade (35.27), a desigualdade deve ser válida para z*, que é o 
maior valor em L,; isto é, 


Lepr£] (35.28) 


Agora, mostramos que */2* 1 , mostrando que (1 2n) 1 . Pela equação (3.14), temos Dios UR | 
y 


2n eh. O Exercício 35.5-3 lhe pede para mostrar que 


n 


44 > 0. (35.29) 


dn 


€ 


2n 


Portanto, a função (1 + e/2n), cresce comn à medida que tende a seu limite de ee'2, e temos 


LE) Se 
2n 
<1+e/2+ (e/2? (pela desigualdade (3.13)) 
<il+e (pela desigualdade (35.25) . (35.30) 


A combinação das desigualdades (35.28) e (35.30) conclui a análise da razão de aproximação. 


Para mostrar que Approx-Subset-Sum é um esquema de aproximação de tempo completamente polinomial, 
deduzimos um limite para o comprimento de L,. Após o desbaste, a relação entre os elementos consecutivos z e z' de L, 
deve ser 7/z > 1 + e/2n. Isto é, a diferença entre eles deve ser de no mínimo um fator 1 + e/2n. Portanto, cada lista 
contém o valor 0, possivelmente o valor 1, e até log 1 + 2 t valores adicionais. O número de elementos em cada 
lista Z, é no máximo 

In t 
E In(1+e/2n) dia 
g 2n(1-+e/2n)ln t 


e 


< am td +2 (pela desigualdade (35.25)) . 
e 


108 1,e/2n t t 2 


+2 (pela desigualdade (3.17)) 


Esse limite é polinomial no tamanho da entrada — que é o número de bits lg t necessários para representar t, mais o 
número de bits necessários para representar o conjunto S, que é por sua vez polinomial em n — e em 1/e. Visto que o 
tempo de execução de Approx-Subset- Sum é polinomial no comprimento das L,, concluímos que Approx-Subset- Sum 
é um esquema de aproximação de tempo completamente polinomial. 


Exercícios 


35.5-1 Prove a equação (35.23), depois mostre que, após a execução da linha 5 de Exact-Subset-Sum, L, é uma 
lista ordenada que contém todo elemento de P, cujo valor não é maior que t. 


35.5-2 Usando indução em i, prove a desigualdade (35.26). 
35.5-3 Prove a desigualdade (35.29). 


35.5-4 Como você modificaria o esquema de aproximação apresentado nesta seção para determinar uma boa 


aproximação para o menor valor não menor que t que é uma soma de algum subconjunto da lista de entrada 
dada? 


35.5-5 Modifique o procedimento Approx-Subset-Sum para também devolver o subconjunto de S cuja soma é o 
valor *. 


Problemas 


35-1  Empacotamento em caixas 


Suponha que tenhamos um conjunto de n objetos, onde o tamanho s, do i-ésimo objeto satisfaz O <s, < 1. 
Desejamos empacotar todos os objetos no número mínimo de caixas de tamanho unitário. Cada caixa pod)e 
conter qualquer subconjunto dos objetos cujo tamanho total não excede 1. 


a. Prove que o problema de determinar o número mínimo de caixas exigidas é NP-dificil (Sugestão: 
Reduza a partir do problema da soma de subconjuntos.) 


A heurística do primeiro que couber (fisrt-fit) toma cada objeto por sua vez e o coloca na primeira caixa 
n 

; ee 

que possa acomodá-lo. Seja S = e k 


b. Demonstre que o número ótimo de caixas necessárias é no mínimo S. 


35-2 


35-3 


35-4 


Demonstre que a heurística do primeiro que couber deixa no máximo uma caixa cheia até menos da 
metade. 


d. Prove que o número de caixas usadas pela heurística do primeiro que couber nunca é maior que 258. 

e. Prove uma razão de aproximação 2 para a heurística do primeiro que couber. 

f Dê uma implementação eficiente da heurística do primeiro que couber e analise seu tempo de execução. 
Aproximação do tamanho de um clique máximo 


Seja G = (V, E) um grafo não dirigido. Para qualquer k > 1 defina G,,, como o grafo não dirigido (V q, Eq) 

onde V4, é o conjunto de todas as k-tuplas ordenadas de vértices de V, e E, é definido de modo que (v,, 

V>>::-»V,) Seja adjacente a (W,, W»,...,W,) se e somente se, para algum i, o vértice v, é adjacente a w, em G ou, 

então, v, = W;. 

a. Prove que o tamanho do clique máximo em G« é igual à k-ésima potência do tamanho do clique máximo 
em G. 


b. Demonstre que, se existe um algoritmo de aproximação que tenha uma razão de aproximação constante 
para determinar um clique de tamanho máximo, então existe um esquema de aproximação de tempo 
completamente polinomial para o problema. 


Problema de cobertura de conjuntos ponderada 


Suponha que generalizemos o problema de cobertura de conjuntos de modo que cada conjunto S, na família F 
tenha um peso associado w, e o peso de uma cobertura seja 35; E iw. Desejamos determinar uma 
cobertura de peso mínimo. (A Seção 35.3 trata o caso em que w, = 1 para todo i.) 


Mostre como generalizar a heurística gulosa de cobertura de conjuntos de maneira natural para dar uma 
solução aproximada para qualquer instância do problema de cobertura de conjuntos ponderada. Mostre que 
sua heurística tem uma razão de aproximação H(d), onde d é o tamanho máximo de qualquer conjunto S.. 


Emparelhamento maximal 


Lembre-se de que, para um grafo não dirigido G, um emparelhamento é um conjunto de arestas tal que não 
haja duas arestas no conjunto incidentes no mesmo vértice. Na Seção 26.3, vimos como determinar um 
emparelhamento máximo em um grafo bipartido. Neste problema, examinaremos emparelhamentos em grafos 
não dirigidos em geral (isto é, não se exige que os grafos sejam bipartidos). 


a. Um emparelhamento maximal é um emparelhamento que não é um subconjunto próprio de qualquer 
outro emparelhamento. Mostre que um emparelhamento maximal não precisa ser um emparelhamento 
máximo exibindo um grafo não dirigido G e um emparelhamento maximal M em G que não seja um 
emparelhamento máximo. (Sugestão: Você pode encontrar um tal grafo com apenas quatro vértices.) 


b. Considere um grafo não dirigido G = (V, E). Dê um algoritmo guloso de tempo O(E) para encontrar um 
emparelhamento maximal em G. 


Neste problema, concentraremos nossa atenção em um algoritmo de aproximação de tempo polinomial para 
emparelhamento máximo. Enquanto o algoritmo mais rápido conhecido para emparelhamento máximo demora 
tempo superlinear (mas polinomial), o algoritmo de aproximação aqui apresentado será executado em tempo 
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linear. Você mostrará que o algoritmo guloso de tempo linear para emparelhamento máximo na parte (b) é um 
algoritmo de aproximação 2 para emparelhamento de máximo. 


c. Mostre que o tamanho de um emparelhamento máximo em G é um limite inferior para o tamanho de 
qualquer cobertura de vértice para G. 


d. Considere um emparelhamento maximal M em G = (V, E). Seja T= tv E V: alguma aresta em M é 
incidente em v+. 


O que você pode dizer sobre o subgrafo de G induzido pelos vértices de G que não estão em 
e. Conclua, pela parte (d) que 2/M| é o tamanho de uma cobertura de vértices para G. 


f' Usando as partes (c) e (e), prove que o algoritmo guloso da parte (b) é um algoritmo de aproximação 2 
para emparelhamento máximo. 


Escalonamento de máquinas paralelas 


No problema de escalonamento de máquinas paralelas, temos n tarefas, J,, J,,..., J,, onde cada tarefa J, 
tem um tempo de processamento não negativo associado p,. Também temos m máquinas idênticas, M,, 
M,,...M, Qualquer tarefa pode ser executada em qualquer máquina. Um escalonamento específica, para 
cada tarefa J,, a máquina na qual ela é executada e o período de tempo durante o qual ela é executada. Cada 
tarefa J, deve ser executada em alguma máquina M, durante p, unidades de tempo consecutivas e, durante 
esse período de tempo, nenhuma outra tarefa pode ser executada em M.. Seja C, o tempo de conclusão da 
tarefa J,, isto é, o tempo em que a tarefa J, conclui o processamento. Dado um escalonamento, definimos 
Cmax = max! C, como a duração da escalonamento. A meta é determinar um escalonamento cuja duração 
seja mínima. 


Por exemplo, suponha que tenhamos duas máquinas M, e M, e quatro tarefas J,, J,, J,, J, comp, = 2, p, = 
12,p;=4e p,= 5. Então uma escalonamento possível executa, na máquina M,, a tarefa J, seguida pela tarefa 
J, e, na máquina M,, ela executa a tarefa J, seguido pela tarefa J,. Para esse escalonamento, C, = 2, C, = 14, 
C,=9,0,=5€ Cx 14. Um escalonamento ótimo executa J, na máquina M,, e as tarefas J,, J, e J, na 
máquina M,. Para esse escalonamento, C =2,C,=12,0,-6,C,=1eC — 12. 


Dado um problema de escalonamento de máquinas paralelas, seja C, max a duração de um escalonamento 
ótimo. 


a. Mostre que a duração ótima é no mínimo tão grande quanto o maior tempo de processamento, isto é, 


C 


b. Mostre que a duração ótima é no mínimo tão grande quanto a carga média da máquina, isto é, 


C, Em 
max — 


m Ze! 


* 


> max 
max — IXk<n Pk 


Suponha que usamos o seguinte algoritmo guloso para escalonamento de máquinas paralelas: sempre que uma 
máquina estiver ociosa, programar qualquer tarefa que ainda não tenha sido escalonada. 
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c. Escreva pseudocódigo para implementar esse algoritmo guloso. Qual é o tempo de execução de seu 
algoritmo? 


d. Para a programação retornada pelo algoritmo guloso, mostre que 


1 
A o > Pk + max Pk 
M i<k<n Isk<n 


Conclua que esse algoritmo é um algoritmo polinomial de 2-aproximação. 
Aproximação para uma árvore geradora máxima 


Seja G = (V, E) um grafo não dirigido com pesos de arestas distintos w(u, v) em cada aresta (u, v) E E. 
Para cada vértice v E V, seja max(v) = max(u, v) E E fw(u, v)) a aresta de peso máximo incidente nesse 
vértice. Seja Sq = fmax(v) :v E V) o conjunto de arestas de pesos máximos incidentes em cada vértice, e 
seja Tx à árvore geradora de peso máximo de G, isto é, a árvore geradora de peso total máximo. Para 
qualquer subconjunto de arestas E' € E, defina w(E) = 5(u,v) E E w(u, v). 


a. Dê um exemplo de grafo com no mínimo quatro vértices para o qual Sc = Te. 

b. Dê um exemplo de grafo com no mínimo quatro vértices para o qual Sc £ Tc. 

c. Prove que SS Tcpara qualquer grafo G. 

d. Prove que v(Tc) > w(9c)/2 para qualquer grafo G. 

e Dê umalgoritmo de tempo O(V + E) para calcular uma 2-aproximação para a árvore geradora máxima. 
Um algoritmo de aproximação para o problema da mochila 0-1 


Lembre-se do problema da mochila na Seção 16.2. Há n ítens, onde o i-ésimo item vale v, dólares e pesa w, 
libras. Temos também uma mochila que pode acondicionar no máximo W libras. Aqui, adicionamos as 
premissas de que cada peso w, é no máximo W e que os itens estão indexados em ordem monotonicamente 
decrescente de seus valores: v > v,>...>V,. 


No problema da mochila 0-1, desejamos determinar um subconjunto de ítens cujo peso total seja no máximo 
W e cujo valor total seja máximo. O problema da mochila fracionário é como o problema da mochila 0-1, 
exceto que é permitido tomar uma fração de cada item, em vez de estarmos restritos a tomar um item inteiro 
ou nenhuma fração desse item. Se tomarmos uma fração x, do ítem i, onde 0 < x, < 1, contribuímos com x;w, 
para o peso da mochila e recebemos o valor x,v,. Nossa meta é desenvolver um algoritmo de aproximação 2 
de tempo polinomial para o problema da mochila 0-1. 


Para projetar um algoritmo de tempo polinomial, consideramos instâncias restringidas do problema da mochila 
0-1. Dada uma instância 7 do problema da mochila, formamos instâncias restringidas L, paraj =1,2,...,n, 
eliminando itens 1, 2, ....,7 — 1 e exigindo que a solução inclua o item j (o item; inteiro, tanto no problema da 
mochila fracionário quanto no problema da mochila 0-1). Nenhum item é eliminado na instância 7. Para a 
instância 7, seja P, uma solução ótima para o problema 0-1 e O, uma solução ótima para o problema 
fracionário. 


a. Demonstre que uma solução ótima para a instância 1 do problema da mochila 0-1 seja pertença a £Pi, P», 
cas 


b. Prove que podemos determinar uma solução ótima Q; para o problema fracionário para a instância 1; 
incluindo o ítem; e depois usando o algoritmo guloso no qual, a cada etapa, tomamos o máximo possível 
do item k não escolhido no conjunto 4; + 1,j+2,...,ny como valor máximo por libra v, /w.. 


c. Prove que sempre podemos construir uma solução ótima O;para o problema fracionário para a instância 
1 que inclua no máximo um item fracionário. Isto é, para todos os itens, exceto possivelmente um, 
incluímos na mochila o item imteiro ou nenhuma fração dele. 


d. Dada uma solução ótima () para o problema fracionário para a instância 1, forme a solução R, de O, 
eliminando quaisquer itens fracionários de O.. Seja v(S) o valor total de itens tomados em uma solução .S. 
Prove que v(R) > v(0)/2 > v(P)/2. 


e. Dê umalgoritmo de tempo polinomial que retorne uma solução de valor máximo do conjunto (Ri, R», ..., 
Ri! e prove que o seu algoritmo é um algoritmo polinomial de 2-aproximação para o problema da 
mochila 0-1. 


NorTas DO CAPÍTULO 


Embora métodos que não calculam necessariamente soluções exatas sejam conhecidos há milhares de anos (por 
exemplo, métodos para aproximar o valor de ) , a noção de um algoritmo de aproximação é muito mais recente. 
Hochbaum [172], credita a Garey, Graham e Ullman [128] e a Johnson [190] a formalização do conceito de um 
algoritmo de aproximação de tempo polinomial. O primeiro algoritmo desse tipo é frequentemente creditado a Graham 
[149]. 

Desde essas primeiras obras, milhares de algoritmos de aproximação têm sido projetados para ampla faixa de 
problemas e há profusão de literatura nessa área. Textos recentes de Ausiello et al. [26], Hochbaum [172] e Vazirani 
[345] tratam exclusivamente de algoritmos de aproximação, assim como os levantamentos de Shmoys [315] e de Klein 
e Young [207]. Vários outros textos, como os de Garey e Johnson [129] e de Papadimítriou e Steiglitz [271] também 
apresentam uma cobertura significativa de algoritmos de aproximação. Lawler, Lenstra, Rinnooy Kan e Shmoys [225] 
dão um tratamento extensivo de algoritmos de aproximação para o problema do caixeiro-viajante. 

Papadimitriou e Steiglitz atribuem o algoritmo Approx-Vertex-Cover a F. Gavrile M. Yannakakis. O problema de 
cobertura de vértices foi estudado extensivamente (Hochbaum [172] apresenta uma lista com 16 algoritmos de 
aproximação diferentes para esse problema), mas todas as razões de aproximação são no mínimo 2 — o(1). 

O algoritmo Approx-TSP-Tour aparece em um artigo por Rosenkrantz, Steams e Lewis [298]. Christofides 
melhorou esse algoritmo e apresentou um algoritmo de aproximação 3/2 para o problema do caixeiro-viajante com a 
desigualdade triangular. Arora [22] e Mitchell [257] mostraram que, se os pontos estão sobre um plano euclidiano, 
existe um esquema de aproximação de tempo polinomial. O Teorema (35.3) se deve a Sahni e Gonzalez [301]. 

A análise da heurística gulosa para o problema de cobertura de conjuntos é modelada com base na prova 
publicada por Chvátal [68] de um resultado mais geral; o resultado básico como apresentado aqui se deve a Johnson 
[190] e Lovász [238]. 

O algoritmo Approx-Subset- Sum e sua análise são modelados livremente conforme os algoritmos de aproximação 
relacionados para os problemas da mochila e de soma de subconjuntos por Ibarra e Kim [187]. 

O Problema 35-7 é uma versão combinatória de um resultado mais geral para aproximação de programas do tipo 
do programa da mochila com inteiros por Bienstock e McClosky [45]. 

O algoritmo aleatorizado para satisfazbildade MAX-3-CNF está implícito no trabalho de Johnson [190]. O 
algoritmo de cobertura de vértices ponderada é de Hochbaum [171]. A Seção 35.4 apenas toca no poder da 
aleatorização e da programação linear para o projeto de algoritmos de aproximação. Uma combinação dessas duas 
ideias gera uma técnica denominada “arredondamento aleatorizado”, que formula um problema como um programa 


linear inteiro, resolve o relaxamento linear e interpreta as variáveis na solução como probabilidades. Então, essas 
probabilidades são usadas para ajudar a orientar a solução do problema original. Essa técnica foi usada inicialmente por 
Raghavan e Thompson [290], e teve muitos usos subsequentes. (Consulte o levantamento apresentado por Motwani, 
Naor e Raghavan [261]. Entre várias outras ideias notáveis recentes na área de algoritmos de aproximação citamos o 
método dual primitivo (consulte o levantamento apresentado por Goemans e Williamson [135]), a determinação de 
cortes esparsos para uso em algoritmos de divisão e conquista [229] e o uso de programação semidefinida [134]. 

Como mencionamos nas notas do Capítulo 34, resultados recentes em provas que podem ser verificadas 
probabilisticamente resultaram em limites mais baixos para a capacidade de aproximação de muitos problemas, 
incluídos vários que aparecem neste capítulo. Além das referências dadas ali o capítulo por Arora e Lund [23] contém 
uma boa descrição da relação entre provas que podem ser verificadas probabilisticamente e a dificuldade de aproximar 
diversos problemas. 


1 Quando a razão de aproximação é independente de n, usamos os termos “razão de aproximação de »” e “algoritmo de aproximação 1”, 
que indica a não dependência de n. 
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Quando analisamos algoritmos, muitas vezes, precisamos recorrer a um conjunto de ferramentas matemáticas. 
Algumas dessas ferramentas são tão simples quanto a álgebra que aprendemos no segundo grau, mas outras podem ser 
novas para você. Na Parte I, vimos como tratar notações assintóticas e resolver recorrências. Este apêndice 
compreende um compêndio de vários outros conceitos e métodos que empregamos para analisar algoritmos. Como 
observamos na introdução à Parte I, é possível que você já tenha visto grande parte do material neste apêndice antes de 
ler este livro (embora ocasionalmente as convenções específicas de notação que utilizamos possam ser diferentes das 
que viu em outros lugares). Consequentemente, você deve tratar este apêndice como material de referência. No 
entanto, como no restante deste livro, incluímos exercícios e problemas para que você possa melhorar seus 
conhecimentos nessas áreas. 

O Apêndice A oferece métodos para avaliar e limitar somatórias, que ocorrem frequentemente na análise de 
algoritmos. Muitas das fórmulas apresentadas aqui aparecem em qualquer livro didático de cálculo, mas você verá que é 
conveniente ter uma compilação desses métodos em um único lugar. 

O Apêndice B contém definições e notações básicas para conjuntos, relações, funções, grafos e árvores, e também 
apresenta algumas propriedades básicas desses objetos matemáticos. 

O Apêndice C começa com princípios elementares de contagem: permutações, combinações e semelhantes. O 
restante contém definições e propriedades de probabilidade básica. Grande parte dos algoritmos deste livro não exige 
nenhum conhecimento de probabilidade para sua análise e, assim, você poderá omitir facilmente as últimas seções do 
capítulo em uma primeira leitura, até mesmo sem folheá-las. Mais tarde, quando encontrar uma análise probabilística 
que queira entender melhor, verá que o Apêndice C é bem organizado como material de referência. 

O apêndice D define matrizes, operações com matrizes e algumas de suas propriedades básicas. É provável que 
você já tenha estudado a maioria desse material se já fez algum curso de álgebra linear, mas verá que é útil ter um lugar 
separado para procurar nossas notações e definições. 


SOMATÓRIOS 


Quando um algoritmo contém um constructo de controle iterativo como um laço while ou for, podemos expressar 
seu tempo de execução como a soma dos tempos gastos em cada execução do corpo do laço. Por exemplo, vimos na 
Seção 2.2 que a j-ésima iteração da ordenação por inserção demorou um tempo proporcional a j no pior caso. 
Somando o tempo gasto em cada iteração, obtivemos o somatório (ou a série) 


H 


Di 
=? 


Quando avaliamos esse somatório, obtivemos um limite de Q(n,) para o tempo de execução do pior caso do 
algoritmo. Esse exemplo ilustra por que você deve saber como lidar com somatórias e limitá-las. 

A Seção A.1 apresenta uma lista de várias fórmulas básicas que envolvem somatórios. A Seção A.2 oferece 
técnicas úteis para limitar somatórias. Apresentamos as fórmulas da Seção A.1 sem provas, embora provas para 
algumas delas apareçam na Seção A.2 para ilustrar os métodos dessa seção. Você pode encontrar a maioria das outras 
provas em qualquer livro didático de cálculo. 


A.l FÓRMULAS E PROPRIEDADES DE SOMATÓRIOS 


Dada uma sequência de números a,, a,,..., a,, podemos escrever a soma finita a, +a,+... + a, onde n é um 
inteiro não negativo, como 


n 
Sa 
= 


Sen = 0, o valor do somatório é definido como 0. O valor de uma série finita é sempre bem definido, e seus 
termos podem ser somados em qualquer ordem. 
Dada uma sequência infinita de números a,, a,,..., podemos escrever a soma infinita a, + a, + ... como 


(9,9) 
k=1 


cujo significado interpretamos como 


Se o limite não existe, a série diverge; caso contrário, ela converge. Os termos de uma série convergente nem 
sempre podem ser somados em qualquer ordem. Contudo, podemos reorganizar os termos de uma série 


[9,9] 00 


dia a a q o la,| ; 
absolutamente convergente, isto é, uma série À ai k para a quala série k-1 É também converge. 


Linearidade 
Para qualquer número real c e quaisquer sequências finitas a,, à,,...,4,€ Dy, D5,...5D,» 


> (ca +b)=0> 4 +> be. 
k=1 k=1 


k=1 


A propriedade de linearidade também se aplica a séries convergentes infinttas. 
Podemos explorar a propriedade de linearidade para lidar com somatórias que incorporam notação assintótica. 
Por exemplo, 


Dea(tay=[ fr) 


Nessa equação, a notação Q no lado esquerdo se aplica à variável k mas, no lado direito, ela se aplica a n. 
Também podemos aplicar tais manipulações a séries convergentes infinitas. 


Série aritmética 
O somatório 


PP] 


k=1 


é uma série aritmética e temo valor 
n 1 
>Sk=>=n(n+1) (A.1) 
ka 2 


=O(n”) (A.2) 


Somas de quadrados e cubos 


Temos os seguintes somatórios de quadrados e cubos: 


n(n+ D(2n+1) 
Dá A (A.3) 
Spies diant | (A.4) 


k=0 


Série geométrica 


Para números reais x £ 1, o somatório 


a 1 ret 


k=0 


é uma série geométrica ou exponencial e temo valor 


n an+1 A 
50d Etnia, (A.5) 


Quando o somatório é infinito e |x| < 1, temos a série geométrica decrescente infinita 


Sox x (A.6) 


k=0 


Como adotamos 00 = 1, essas fórmulas valem também quando x = 0. 


Série harmônica 
Para inteiros positivos n, o n-ésimo número harmônico é 


E | 1 
H=l+=+=+—=++ 
2 3 4 n 


= n E! 
a k 
=Inn+o(1). (A.7) 


(Provaremos um limite relacionado na Seção A.2.) 


Integração e diferenciação de séries 


Integrando e diferenciando as fórmulas citadas, surgem fórmulas adicionais. Por exemplo, diferenciando ambos os 
lados da série geométrica infinita (A.6) e multiplicando por x, obtemos 


OU 
) kx* = 
k=0 


para |x|< 1. 


a 
E. (A.8) 


Séries telescópicas 


Para qualquer sequência a,, à,,..., 4, 


n 


k— ) Es A, — 4 (A.9) 


k=1 


já que cada um dos termos a,, a,,..., a, — 1 é somado exatamente uma vez e subtraído exatamente uma vez. Dizemos 
que a soma é telescópica. De modo semelhante, 


n—1l 


> Mm — ua) = d — 4 


k=1 
Como exemplo de uma soma telescópica, considere a série 


n—l 


k=1 a 


Visto que podemos reescrever cada termo como 


1 1 1 


Kk+1) k 14% 


obtemos 


ma k(Kk+I gilk k+1 
sd 
n 


Produtos 


Podemos escrever o produto finito a a, ... a, como 


“ 


Se n = 0, o valor do produto é definido como 1. Podemos converter uma fórmula com um produto em uma 
fórmula com um somatório utilizando a identidade 


Exercícios 


A.1-1 Determine uma fórmula simples para Eus e 1). 


A.1-2 x 
Mostre que Do 1/(Qk=1) = In( Jn ) + O(1), manipulando a série harmônica. 


A.1-3 Mostre que ce, kt =x(1+x)/(1-x) para Ixl <1. 


A.1-4 x 
Mostre que | Jea (k — 1)/2* = 
A.1-5 x 


Avalie a soma Ea (2k + 1)x% para Ixl <1. 
A.1-6  Proveque Ea OGAi)) = O( o | (f41)) usando a propriedade de linearidade de soma- 


tórios. 
A.1-7  Avalieo produto ||, 2-4. 
A.1-8 x 


Avalie o produto [Hot =1/K). 


A.2 [LiMiTANDO SOMATÓRIOS 


Temos muitas técnicas disponíveis para limitar os somatórios que descrevem os tempos de execução de algoritmos. 
Aqui apresentamos alguns dos métodos mais frequentemente empregados. 


Indução 
O modo mais comum para avaliar uma série é usar indução. Como exemplo, vamos provar que a série aritmética 


n 
k 
o =1 ktemo valor 1n (n+ 1). E fácil verificar essa afirmativa para n = 1. Admitimos indutivamente que ela seja 
válida para n e provamos que ela vale para n + 1. Temos 


n+1 
ds D+ n+1) 
= u(1+D+(1+1) 
1 
= edad) 


Nem sempre é necessário adivinhar o valor exato de um somatório para usar indução. Em vez disso, podemos usar 
n 
indução para provar um limite para um somatório. Como exemplo, vamos provar que a série geométrica tea Pe 
n 
O(3,). Mais especificamente, vamos provar que Eres 3t*< c3, para alguma constante c. Para a condição inicial n = 0, 
n 


temos Dmed 3*= 1 : c desde que c > 1. Supondo que o limite vale para n, vamos provar que ele é válido para n + 1. 
Temos 


n+1 n 


+= rg 
k=0 


k=0 


<c3"+3"! | (por hipótese de indução) 
= E —— Eles 

o 
a? core 


n 


desde que (1/3 + 1/c)< 1 ou, o que é equivalente, c > 3/2. Assim, E eat O(3,), como queríamos demonstrar. 
Temos de tomar cuidado quando usarmos notação assintótica para provar limites por indução. Considere a 


seguinte prova falaciosa que Ena = O(n). Certamente, ra = O(1). Supondo que o limite é válido para n, agora 
o provamos para n + 1: 


n+1 n 


Dk=5 k+(n+1) 

k=1 k=1 
= O(n)+ (n+ 1) <= errado !! 
= O(n+41) 


O erro no argumento é que a “constante” oculta pelo “O grande” cresce com n e, portanto, não é constante. Não 
mostramos que a mesma constante funciona para todo n. 


Limitando termos 


Às vezes, podemos obter um bom limite superior para uma série limitando cada termo da série, e muitas vezes 
basta utilizar o maior termo para limitar os outros. Por exemplo, um limite superior rápido para a série aritmética (A.1) é 


n 


Em geral, para uma série dies ay Se fizermos a, — maxik a,, então 
n 
> a<na. 
k máx 
k=1 


A técnica de limitar cada termo em uma série pelo maior termo é um método fraco quando a série pode ser de fato 


n 


limitada por uma série geométrica. Dada a série o a, Suponha que a,+1/a, < r para todo k > 0, onde O <r<1 é 
uma constante. Podemos limitar a soma por uma série geométrica decrescente infinita, já que a, < ar: e, assim, 


n 


Sa, <a! 


k=0 k=0 
[0,9] 
= k 
nc do E r 
k=0 
1 
=].0— 


n 


Podemos aplicar esse método para limitar o somatório Ep (k/3%). Para miciar o somatório em k = 0, nós o 


n 


reescrevemos como Ea ((k + 1)/34+ 1). O primeiro termo (ao) é 1/3, e a razão (r) entre os termos sucessivos é 


(k+2)/3” 1 k+2 
Krivs Bksi 


qa 


para todo k > 0. Assim, temos 


Um erro comum na aplicação desse método é mostrar que a razão entre termos sucessivos é menor que 1 e depois 
decidir que o somatório é limitado por uma série geométrica. Um exemplo é a série harmônica infinita, que diverge, já 


que 
EL mo! 
p= Kk 


100" k 
= lim O(gn) 
— OO. 


Arazão entre o (k + 1)-ésimo termo e o k-ésimo termo nessa série é k/(k + 1) < 1, mas a série não é limitada por 
uma série geométrica decrescente. Para limitar uma série por uma série geométrica, devemos mostrar que existe um 7 < 
1 que é uma constante, tal que a razão entre todos os pares de termos sucessivos nunca exceda 7. Na série harmônica, 
não existe tal r porque a razão se torna arbitrariamente próxima de 1. 


Quebra de somatórios 


Um dos modos de obter limites para um somatório difícil é expressar a série como a soma de duas ou mais séries 
particionando a faixa do índice e depois limitando cada uma das séries resultantes. Por exemplo, suponha que tentamos 


n 
determinar um limite mferior para a série aritmética Dna, que, como já vimos, tem um limite superior de n,. 
Poderíamos tentar limitar cada termo no somatório pelo menor termo mas, como esse termo é 1, obtemos um limite 
inferior de n para o somatório — bem longe do nosso limite superior de n,. 

Podemos obter um limite mferior melhor quebrando primeiro o somatório. Por conveniência, suponha que n seja 
par. Temos 


n/2 n 


RE >; 


k=1 k=1 k=n/2+1 
n/2 n 
Ds ». 0+ >. (n/2) 
k=1 k=n/2+1 
=(n/27 
= On”), 


n 
que é um limite assintoticamente justo, visto que E het = O(n?). 
Quando se trata de um somatório que surge da análise de um algoritmo, muitas vezes podemos quebrar o 
somatório e ignorar um número constante de termos iniciais. Em geral, essa técnica se aplica quando cada termo a, em 


n 


um somatório E ak é independente de n. Então, para qualquer constante k, > 0, podemos escrever 


n kom n 
E, = DA, o a a, 
k=0 k=0 k=k, 

=AD+5a, 


já que os termos iniciais do somatório são constantes e há um número constante deles. Então, podemos usar outros 


métodos para limitar mea 3* ax. Por exemplo, para determinar um limite superior assintótico para 


90 k? 
Dra 


observamos que a razão entre termos consecutivos é 


(k + 1)? Pos Dn 


RJ a 


8 
ed pd 
9 
se k > 3. Assim, o somatório também pode ser quebrado em 
prt A persão  D 
k=0 2 k=0 j k=3 2 
DE 
o 2º 8Siol9 


já que o primeiro somatório tem um número constante de termos e o segundo somatório é uma série geométrica 
decrescente. 

A técnica de quebrar somatórios pode nos ajudar a determinar limites assintóticos em situações muito mais difíceis. 
Por exemplo, podemos obter um limite de O(lg nn) para a série harmônica (A.7): 


H, = - 
k=1 K 


Fazemos isso dividindo a faixa 1 an emlgn + 1 pedaços e limitando por 1 a contribuição de cada pedaço. Para i 
= 0, 1,...,lgn, o i-ésimo pedaço consiste nos termos que começam em 1/2ie vão até 1/2i+1, mas não o incluem. O 
último pedaço pode conter termos que não estão na série original e, assim, temos 


sn)9i- 

"1 Llgn)2'—1 1 

= e 
k 1 k i=0 j=0 2 +] 
Lign)2'-1 1 
i=0 j=0 2 
LIgn) 
= 


i=0 


É 


=lgn+1. (A.10) 


Aproximação por integrais 


Quando um somatório tem a forma Dota (19), onde f(k) é uma finção monotonicamente crescente, podemos 
aproximá-lo por integrais: 


+ n + n+-] 
dx < EE Xx)dx. É 
[fode < Dre </ fo (A) 
A Figura A.1 justrfica essa aproximação. O somatório é representado como a área dos retângulos na figura, e a 
integral é a região sombreada sob a curva. Quando f(k) é uma função monotonicamente decrescente, podemos usar um 
método semelhante para determinar os limites 


JE rea ra<|” rodar (A.12) 


m—l 
k=m 


ml m m+1  m+2 apa ads n-2 n-l n n+1 


(a) 


ml m m+1  m+2 sie Eira n-2 n-l n n+] 


(b) 


n 
Figura A.1 Aproximação de Pi f (o) por integrais. A área de cada retângulo é mostrada dentro do retângulo, e a área total dos 
retângulos representa o valor do somatório. A integral é representada pela área sombreada sob a curva. Comparando as áreas em (a), 


obtemos !,/!* SL. e depois, deslocando os retângulos uma unidade para a direita, obtemos Di“</, (1% emb). 


A aproximação por integral (A.12) nos dá uma estimativa restrita para o n-ésimo número harmônico. Para um 
limite inferior, obtemos 


X 
=In(n+1). (A.13) 


Para o limite superior, derivamos a desigualdade 


1d 
Dra ie 


K= 
que produz o limite 
n 1 
>;=<lnn+1 (A.14) 
k=1 k 
Exercícios 
A.2-1 Mostre que ri /K é limitado por cima por uma constante. 
A.2-2 Determine um limite superior assintótico para o somatório 
Lign] 
3 [n/28] 
A.2-3 Mostre que o n-ésimo número harmônico é O(lg n), dividindo o somatório. 
A.2-4 | Aproxime É e com uma integral. 
A.2-5 Por que não usamos a aproximação por integral (A.12) diretamente em » ua (1/k para 
obter um limite superior para o n-ésimo número harmônico? 
Problemas 


Limitando somatórios 


Dê limites assintoticamente justos para os somatórios a seguir. Suponha que r> 0 es > 0 são constantes. 


NorTAS DO APÊNDICE 


Knuth [209] é uma excelente referência para o material apresentado aqui. O leitor pode encontrar propriedades 
básicas de séries em qualquer bom livro de cálculo, como Apostol [18] ou Thomas et al. [334]. 


CONJUNTOS ETC. 


Muttos capítulos deste livro mencionam elementos da matemática discreta. Este apêndice reexamina de forma mais 
completa as notações, definições e propriedades elementares de conjuntos, relações, funções, grafos e árvores. Para os 
leitores que já estão bem versados nesses assuntos, basta dar uma olhada rápida neste capítulo. 


B.1 Consuntos 


Um conjunto é uma coleção de objetos distintos, denominados elementos ou membros do conjunto. Se um 
objeto x é um elemento de um conjunto S, escrevemos x E S (lê-se “x é um membro de S”, “x é um elemento de S”, 
“x pertence a S” ou, de modo mais abreviado, “x está em S”). Se x não é um elemento de S, escrevemos que x É $. 
Podemos descrever um conjunto relacionando explicitamente seus elementos como uma lista entre chaves. Por 
exemplo, podemos definir um conjunto S contendo exatamente os números 1, 2 e 3, escrevendo S = 11, 2, 3!. Como 2 
é um elemento do conjunto S, podemos escrever 2 & S; como 4 não é um elemento do conjunto, temos 4 É S. Um 
conjunto não pode conter o mesmo objeto mais de uma vez,! e seus elementos não são ordenados. Dois conjuntos 4 e 
B são iguais, expresso por 4 = B, se eles contêm os mesmos elementos. Por exemplo, 11,2,3, 1) = (1,2,31 = 13, 
2,13. 

Adotamos notações especiais para conjuntos encontrados com frequência: 

* 0 denota o conjunto vazio, isto é, o conjunto que não contém nenhum elemento. 


. denota o conjunto de números inteiros, isto é, o conjunto (..., -2,-1,0,1,2,...). 
* | denota o conjunto de números reais. 
. denota o conjunto de números naturais, isto é, o conjunto (0, 1,2, ...+. 


Se todos os elementos de um conjunto 4 estão contidos em um conjunto B, isto é, sex E 4 implica x E B, 
escrevemos 4 € B e dizemos que 4 é um subconjunto de B. Um conjunto 4 é um subconjunto próprio de B, 
representado por 4 € B,se 4 € B, mas 4 £ B. (Alguns autores usam o símbolo “C” para denotar a relação de 
subconjunto, em vez da relação de subconjunto próprio.) Para qualquer conjunto 4, temos 4 € A. No caso de dois 
conjuntos 4 e B, temos 4 = B se e somente se 4 € Be BC A. Para três conjuntos 4, Be € quaisquer, se 4 E Be B 
€ C, então 4 € €. Para qualquer conjunto 4, temos 0/ E 4. 

Algumas vezes, definimos conjuntos em termos de outros conjuntos. Dado um conjunto 4, podemos definir um 
conjunto B € 4 enunciando uma propriedade que distingue os elementos de B. Por exemplo, podemos definir o 
conjunto dos números inteiros pares por fx :x E  ex/2 é uminteiro;. Nessa notação, o sinal de dois-pontos significa 
“tal que”. (Alguns autores usam uma barra vertical em vez do sinal de dois-pontos.) 

Dados dois conjuntos 4 e B, também podemos definir novos conjuntos aplicando operações de conjuntos: 


*  Ainterseção de conjuntos 4 e B é o conjunto 


AnB=[x:xeAexegBl. 


*  Aunião de conjuntos 4 e B é o conjunto 
AUB=|x:xeAouxeB). 

*  Adiferença entre dois conjuntos 4 e B é o conjunto 
A-B=ix:xeAexgB). 


As operações de conjuntos obedecem às seguintes leis: 


Leis do conjunto vazio: 
ANd=D, 
AUD=A. 


Leis de idempotência: 
ANA=A, 
AJÃ=A. 


Leis comutativas: 


ANB=BNA, 
AUB=BUA. 


Leis associativas: 
AN(BNO =(ANB)NC, 
AU(BUO =(AUB)UC. 


Leis distributivas: 


AN(BUC) =(ANBJU(ANO), (B.1) 
AU(BNO=(AUBN(AVO). 


Leis da absorção: 


AN(AUB)=A, 
AU(ANB)=A. 


Leis de DeMorgan: 
A-(BNO=(A-BJU(A-C), 
A-(BUC)=(A-B)N(A-C). (B.2) 


a fan E, gas a, 
8 6-0-0-€ 


A — (BNC) = A-(BNO) = (A — B) U (A— C) 


Figura B.1 Um diagrama de Venn que ilustra a primeira das leis de DeMorgan (B.2). Cada um dos conjuntos 4, Be C é representado 
como um círculo. 


A Figura B.1 ilustra a primeira das leis de DeMorgan por meio de um diagrama de Venn: uma imagem gráfica na 
qual os conjuntos são representados como regiões do plano. 

Muítas vezes, todos os conjuntos em consideração são subconjuntos de algum conjunto maior U denominado 
universo. Por exemplo, se estivermos considerando vários conjuntos formados somente por inteiros, o conjunto de 
inteiros é um universo adequado. Dado um universo U, definimos o complemento de um conjunto 4 como 4 =U- 4 
=fx:x € Uex&4) Para qualquer conjunto 4 & U, temos as seguintes leis: 


A=Á., 
ANA=QG, 
AUA=U. 


Podemos reescrever as leis de DeMorgan (B.2) com complementos de conjuntos. Para dois conjuntos quaisquer 
BCE U, temos 


BNC=BUC, 
BUC=BNC. 


Dois conjuntos 4 e B são disjuntos se não têm nenhum elemento em comum, isto é, se 4 N B = /0. Uma coleção 
S = (S$,) de conjuntos não vazios forma uma partição de um conjunto S se: 
* os conjuntos são disjuntos aos pares, isto é, Si, S; E Se ij implicam SN S,=0/e 
* suaunão és, isto é, 


B=] JS. 


S;có 


Em outras palavras, S forma uma partição de S se cada elemento de .S aparece em exatamente ums, E S. 

O número de elementos em um conjunto é a cardinalidade (ou tamanho) do conjunto, denotada por |S]. Dois 
conjuntos têm a mesma cardinalidade se seus elementos podem ser colocados em uma correspondência de um para um. 
A cardinalidade do conjunto vazio é |/0| = 0. Se a cardinalidade de um conjunto é um número natural, dizemos que o 
conjunto é finito; caso contrário, ele é infinito. Um conjunto infinito que pode ser colocado em uma correspondência 
de um para um com os números naturais éinfinito contável; caso contrário, ele é não contável. Os inteiros são 
contáveis, mas os reais são não contáveis. 

Para quaisquer dois conjuntos finitos 4 e B, temos a identidade 


IAUBI = |IAI + IBI — IANBI, (B.3) 


da qual podemos concluir que 


IAUBI<IAI+IBI. 


Se 4 e B são disjuntos, então |4 N B|=0 e, portanto, |4 U B|=|A|+|B]. Se 4 € B, então |4| < |). 

Um conjunto finito de n elementos às vezes é denominado n-conjunto. Um conjunto de um elemento é 
denominado conjunto unitário. Um subconjunto de k elementos de um conjunto, às vezes, é denominado k- 
subconjunto. 

Denotamos o conjunto de todos os subconjuntos de um conjunto S, incluindo o conjunto vazio e o próprio 
conjunto S, por 28 ; denominamos 2S o conjunto potência de S. Por exemplo, 2tab; = (0/, fa), tb), ta, b:3. O 
conjunto potência de um conjunto finito S tem cardinalidade 2IS (veja o Exercício B.1-5). 

Às vezes, utilizamos estruturas semelhantes a conjuntos nas quais os elementos estão ordenados. Um par 
ordenado de dois elementos a e b é denotado por (a, b) e definido formalmente como o conjunto (a, b) = fa, fa, b)+. 
Assim, o par ordenado (a, b) não é o mesmo que o par ordenado (b, a). 

O produto cartesiano de dois conjuntos 4 e B, denotado por 4 x B, é o conjunto de todos os pares ordenados 
tais que o primeiro elemento do par é um elemento de 4 e o segundo é um elemento de B. Em termos mais formais, 


AxB=l(a,b):aeAebeB). 


Por exemplo, (fa, bt x fa, b, ck = I(a, a), (a, b), (a, c), (b, a), (b, b), (b, c)). Quando 4 e B são conjuntos finitos, 
a cardinalidade de seu produto cartesiano é 


[AX BI = 14] «1Bl: (B.4) 
O produto cartesiano de n conjuntos 4,, 4,, ..., A, é o conjunto de n-tuplas 
ARA, Ho RÃ = os) A io 1,2, a MH), 
cuja cardinalidade é 
IARA, Ka RA =1A,) K LÃA em JÃ,| 
se todos os conjuntos são finitos. Denotamos um produto cartesiano de n termos em um único conjunto 4 pelo conjunto 


ArN=AxAx...xA, 


cuja cardinalidade é |4,] = |4n se 4 é finto. Também podemos ver uma n-tupla como uma sequência finita de 
comprimento n (veja a seção B.3). 

Exercícios 

B.1-1 Esboçe diagramas de Vem que ilustrem a primeira das leis distributivas (B.1). 


B.1-2 Prove a generalização das leis de DeMorgan para qualquer coleção finta de conjuntos: 
ANAN-NA =AUVUAU--UA. 
n 1 2 n 
AUAU--UA =ANANNA,. 
n 1 2 n 


B.13 * 


Prove a generalização da equação (B.3), que é denominada princípio de inclusão e exclusão: 


IAUA,U-- UA | = 
LAS TAG) poe 1 Ã | 
ANA = TÁ MA = ars (todos os pares) 
FIANANA + (todas as triplas) 


HEIHA NANA. 
B.1-4 Mostre que o conjunto de números naturais fmpares é contável. 


B.1-5 Mostre que, para qualquer conjunto finito S, o conjunto potência 2S tem 2/s| (isto é, existem 2/S| subconjuntos 
distintos de 5). 


B.1-6 Dê uma definição indutiva para uma n-tupla estendendo a definição dada para um par ordenado. 


B.2 Reações 


Uma relação binária R para dois conjuntos 4 e B é um subconjunto do produto cartesiano 4 x B. Se(a,b) E R, 
às vezes, escrevemos a R b. Quando dizemos que R é uma relação binária em um conjunto 4, queremos dizer que R é 
um subconjunto de 4 x 4. Por exemplo, a relação “menor que” para os números naturais é o conunto ((a, b) :a,b € 
ea<b). Uma relação n-ária para os conjuntos 4,, 4,, ..., 4, é um subconjunto de 4, x A, X... x 4. 

Uma relação binária R € 4 x 4 é reflexiva se 


aRa 

para todo a E 4. Por exemplo, “=” e “<” são relações reflexivas em , mas “<” não é. A relação R é simétrica se 
a Rb implica b Ra 

para todo a, b E 4. Por exemplo, “=” é simétrica, mas “<” e “<” não são. A relação R é transitiva se 
aRbebRcimplcama Rc 


para todo a, b, c E 4. Por exemplo, as relações “<”, “< e “=” são transítivas, mas a relação R= f(a,b):a,b E ea 
=b-— 1) não é, visto que 3 R4e 4 R 5 não implicam3 R5. 

Uma relação que é reflexiva, simétrica e transitiva é uma relação de equivalência. Por exemplo, é uma 
relação de equivalência para os números naturais, mas “<” não é. Se R é uma relação de equivalência para um conjunto 
A, então, para a E 4, a classe de equivalência de a é o conjunto [a]= $b E 4:a Rb), isto é, o conjunto de todos 
os elementos equivalentes a a. Por exemplo, se definimos R= f(a,b):a,b E ea+b é um nimero par, então R é 
uma relação de equivalência, visto que a + a é par (reflexiva), a + b é par implica b + a é par (simétrica) e a + b é par e 
b + c é par implicam a + c é par (transítiva). A classe de equivalência de 4 é [4] = 10, 2,4, 6,...! e a classe de 
equivalência de 3 é [3] = (1, 3,5, 7,...+. Apresentamos a seguir um teorema básico de classes de equivalências. 


AA) 


Teorema B.1 (Uma relação de equivalência é o mesmo que uma partição) 


As classes de equivalência de qualquer relação de equivalência R para um conjunto 4 formam uma partição de 4, e 
qualquer partição de 4 determina uma relação de equivalência para 4 para a qual os conjuntos na partição são as 
classes de equivalência. 


Prova Para a primeira parte da prova, devemos mostrar que as classes de equivalência de R são conjuntos não vazios, 
disjuntos aos pares, cuja união é 4. Como R é reflexiva, a E [a], e portanto as classes de equivalência são não vazias; 


além disso, visto que todo elemento a E A pertence à classe de equivalência [a], a união das classes de equivalência é 
A. Resta mostrar que as classes de equivalência são conjuntos disjuntos aos pares, isto é, se duas classes de 
equivalência [a] e [6] têm um elemento c em comum, então elas são de fato o mesmo conjunto. Suponha que a Rce b 
Rc. Por simetria, c R b, e por transitividade, a R b. Assim, para qualquer elemento arbitrário x & [a], temos x Rae, 
por transitividade, x R b e, assim, [a] & [b]. De modo semelhante, [5] & [a] e, assim, [a] = [b]. 

Para a segunda parte da prova, seja 4 = (A4,; uma partição de 4 e defina R= ((a, b) :existeitalquea E 4,e b 
E A4,. Afirmamos que R é uma relação de equivalência em 4. A refletividade vale, visto que a E 4, implica a Ra. A 
simetria vale porque, se a R b, então a e b estão no mesmo conjunto 4, e, por consequência, b Ra. Sea Rbe b Rc, 
então os três elementos estão no mesmo conjunto 4, e, assim, a Rc e a transitividade vale. Para verificar que os 
conjuntos na partição são as classes de equivalência de R, observe que, sea E 4, então x E [a] implcax E 4,e x 
E 4, implica x E [a]. 

Uma relação binária R para um conjunto 4 é antissimétrica se 


aRbebRa implcama=b. 


Por exemplo, a relação “<” para os números naturais é antissimétrica, visto que a <b e b <a implicam a = b. Uma 
relação que é reflexiva, antissimétrica e transítiva é uma ordem parcial, e denominamos um conjunto no qual uma 
ordem parcial é definida conjunto parcialmente ordenado. Por exemplo, a relação “é um descendente de” é uma 
ordem parcial no conjunto de todas as pessoas (se considerarmos os indivíduos como sendo seus próprios 
descendentes). 

Em um conjunto parcialmente ordenado 4, pode ser que não haja nenhum elemento “máximo” a tal que b R a para 
todo b E 4. Em vez disso, o conjunto pode conter vários elementos maximais a tais que, para nenhum b E 4, onde 
b £ a, ocorre que a R b. Por exemplo, uma coleção de caixas de tamanhos diferentes pode conter várias caixas 
maximais que não cabem dentro de qualquer outra caixa e, apesar disso, não ter nenhuma caixa “máxima” única dentro 
da qual caberá qualquer outra caixa.3 

Uma relação R em um conjunto 4 é uma relação total se para todo a,b E A, temosa Rb oub R a (ou ambas), 
isto é, se cada formação de pares de elementos de 4 está relacionada por R. Uma ordem parcial que é também uma 
relação total é uma ordem total ou ordem linear. Por exemplo, a relação “<” é uma ordem total para os números 
naturais, mas a relação “é um descendente de” não é uma ordem total para o conjunto de todas as pessoas, visto que 
existem grupos de indivíduos nos quais nenhum indivíduo descende de outro. Uma relação total que é transitiva, mas 
não necessariamente antissimétrica, é uma pré-ordem total. 


Exercícios 


B.2-1 Prove que a relação de subconjunto “€” em todos os subconjuntos de é uma ordem parcial mas não uma 
ordem total. 


B.2-2 Mostre que, para qualquer inteiro positivo n, a relação “equivalente módulo n” é uma relação de equivalência 
para os inteiros. (Dizemos que a b (mod n) se existe um inteiro q tal que a — b = gn.) Em que classes de 
equivalência essa relação particiona os inteiros? 


B.2-3 Dê exemplos de relações que sejam 
a. reflexivas e simétricas, mas não transitivas, 
b. reflexivas e transitivas, mas não simétricas, 


c. simétricas e transitivas, mas não reflexivas. 


Seja S um conjunto finito e seja R uma relação de equivalência para S x S. Mostre que, se uma adição R é 


B.2-4 nada E Calânci x Ep q 
antissimétrica, então as classes de equivalência de S com relação a R são unitárias. 


B.2-5 O professor Narciso afirma que, se uma relação R é simétrica e transitiva, então ela também é reflexiva. Ele 
oferece a seguinte prova. Por simetria, a R b implica b R a. Portanto, a transitividade implica a R a. O 
professor está certo? 


B.3 Funções 


Dados dois conjuntos 4 e B, uma função f é uma relação binária entre 4 e B tal que, para todo a E 4, existe 
exatamente um b E B tal que (a, b) E f. O conjunto 4 é denominado domínio de fe o conjunto B é denominado 
contradomínio de f. Às vezes, escrevemos f: 4 — B; e, se (a, b) E f, escrevemos b = fla), visto que b é 
determinado unicamente pela escolha de a. 

Intuitivamente, a função f atribui um elemento de B a cada elemento de 4. A nenhum elemento de 4 são atribuídos 
dois elementos diferentes de B, mas o mesmo elemento de B pode ser atribuído a dois elementos diferentes de 4. Por 
exemplo, a relação binária 


f=I(a,b):a,beNeb=amod 2) 


é uma função f:  — (0, 1! visto que, para cada número natural a, existe exatamente um valor b em (0, 1! tal que b = 
a mod 2. Para esse exemplo, O = f(0), 1 = f(1),0 = f2) etc. Em contraste, a relação binária 


g=i(a,b):a,beNea+bépar) 


não é uma função, visto que (1, 3) e (1, 5) estão em g e, assim, para a opção a = 1, não existe exatamente um b tal que 
(a,b) E g. 

Dada uma função f:A4 — B, se b = fla), dizemos que a é o argumento de fe que b é o valor de fema. 
Podemos definir uma função declarando seu valor para cada elemento de seu domínio. Por exemplo, poderíamos definir 
fin) = 2n para n E ,o que significa f= f(n,2n):n E ?. Duas funções fe g são iguais se elas têm o mesmo domínio 
e contradomínio e se, para todo a no domínio, f(a) = g(a). 

Uma sequência finita de comprimento n é uma função f cujo domínio é o conjunto de n inteiros (0, 1, ...,n — 
1. Muitas vezes, denotamos uma sequência finita por uma lista de seus valores: < f(0), HD, ..., fin — 1)). Uma 
sequência infinita é uma função cujo domínio é o conjunto dos números naturais. Por exemplo, a sequência de 
Fibonacci definida pela recorrência (3.22), é a sequência infinita (0, 1, 1,2,3,5,8, 13,21,...). 

Quando o domínio de uma finção f é um produto cartesiano, frequentemente omítimos os parênteses extras que 
envolvem o argumento de f. Por exemplo, se tivéssemos uma função f:4, x A, x... x A > B, escreveriamos b = 
fa, a,,...,a,) em vez de b = fi(a,, a,,...,a,)). Também denominamos cada a,, um argumento para a função f, embora 
tecnicamente o (único) argumento para f seja a n-tupla (a,, a,,...,;a,). 

Sef:4 — B é uma função e b = f(a), às vezes, dizemos que b é a imagem de a sob f. A imagem de um conjunto 
A! € A sob fé definida por 


HA)= (be B:b=f(a) para alguma e A!. 


A imagem de f é a imagem do seu domínio, isto é, f(4). Por exemplo, a imagem da função f: — definida por 
fin) =2n é SO = fm :m =2n para algumn E |: em outras palavras, o conjunto de inteiros pares não negativos. 

Uma função é uma sobrejeção se sua imagem é seu contradomínio. Por exemplo, a função f(n) = n/2 é uma função 
sobrejetora de para , visto que todo elemento em aparece como o valor de f para algum argumento. Ao contrário, a 
função f(n) = 2n não é uma função sobrejetora de para porque nenhum argumento de f pode produzir 3 como valor. 


Todavia, a função f(n) = 2n é uma função sobrejetora dos números naturais para os números pares. Uma sobrejeção f: 
A — B às vezes é descrita como mapeando 4 sobre B. Quando dizemos que f é sobre, queremos dizer que ela é 
sobrejetora. 

Uma função f: 4 — B é uma injeção se argumentos distintos de f produzem valores distintos, isto é, se a £ a! 
implica fla) + fla). Por exemplo, a função f(n) = 2n é um função injetora de para , visto que cada número par b é a 
imagem sob f de, no máximo, um elemento do domínio, isto é, b/2. A função f(n) = n/2 não é mjetora, visto que o valor 
1 é produzido por dois argumentos: 2 e 3. Às vezes, uma injeção é denominada função um para um. 

Uma função f: 4 — B é um bijeção se é injetora e sobrejetora. Por exemplo, a função f(n) = (1), n/2 é uma 
bijeção de para 


050, 
15, 
251, 
3502, 
452, 


A função é injetora, já que nenhum elemento de é a imagem de mais do que um elemento de . Ela é sobrejetora, 
visto que todo elemento de aparece como imagem de algum elemento de . Por consequência, a função é bijetora. Às 
vezes, uma bijeção é denominada correspondência de um para um porque forma pares com elementos do domínio e 
do contradomínio. Uma bijeção de um conjunto 4 para ele mesmo, às vezes, é denominada permutação. 

Quando uma função f é bijetora, definimos sua inversa f-1 como 


f" (b) = a se e somente se fa) = b. 
Por exemplo, a inversa da função fl) = (=1)n n/2 é 

2m sem>o0, 
—-2m—1 sem < O. 


Exercícios 

B.3-1 SejamA4 e B conjuntos finos e seja f: 4 — B uma função. Mostre que 
a. sefé injetora, então |4] < |B|; 
b. sefé sobrejetora, então |4| > |B). 


B.3-2 Afiunção flx) =x + 1 é bijetora quando o domínio e o contradomímo são ? Ela é bijetora quando o domínio e 
o contradomínio são ? 


B.3-3 Dê uma definição natural para a inversa de uma relação binária tal que, se uma relação é de fato uma função 
bietora, sua inversa relacional é sua inversa funcional. 


B.3-4 


Dê uma bijeção de para x. 


B.4 Graros 


Esta seção apresenta dois tipos de grafos: dirigido e não dirigido. Certas definições encontradas na literatura são 
diferentes das dadas aqui mas, na maioria das vezes, as diferenças são insignificantes. A Seção 22.1 mostra como 
representar grafos na memória do computador. 

Um grafo dirigido G é um par (V, E), onde V é um conjunto finito e E é uma relação binária em V. O conjunto V 
é denominado conjunto de vértices de G, e seus elementos são denominados vértices. O conjunto E é denominado 
conjunto de arestas de G, e seus elementos são denominados arestas. A Figura B.2(a) é uma representação pictórica 
de um grafo dirigido para o conjunto de vértices (1, 2, 3, 4, 5, 6). Os vértices são representados por círculos na figura 
e as arestas são representadas por setas. Observe que são possíveis laços — arestas de um vértice para ele próprio. 

Em um grafo não dirigido G = (V, E), o conjunto de arestas E consiste em pares de vértices não ordenados, em 
vez de pares ordenados. Isto é, uma aresta é um conjunto fu, vi, ondeu, v E Ve u £ v. Por convenção, usamos a 
notação (u, v) para uma aresta, em vez da notação de conjuntos fu, vt, e (u, v) e (v, u) são consideradas a mesma 
aresta. Em um grafo não dirigido, laços são proibidos e, portanto, toda aresta consiste em dois vértices distintos. A 
Figura B.2(b) é uma representação pictórica de um grafo não dirigido para o conjunto de vértices (1, 2, 3,4,5, 6+. 

Muitas definições para grafos dirigidos e não dirigidos são idênticas, embora certos termos tenham significados 
ligeiramente diferentes nos dois contextos. Se (u, v) é uma aresta em um grafo dirigido G = (V, E), dizemos que (u, v) é 
incidente do vértice u ou sai do vértice u e é incidente no vértice v ou entra no vértice v. Por exemplo, as arestas 
que saem do vértice 2 na Figura B.2(a) são (2, 2), (2, 4) e (2, 5). As arestas que entram no vértice 2 são (1, 2) e (2, 2). 
Se (u, v) é uma aresta em um grafo não dirigido G = (V, E), dizemos que (u, v) é incidente nos vértices u e v. Na 
Figura B.2(b), as arestas incidentes no vértice 2 são (1, 2) e (2, 5). 


e NR, PE (1 D O vd E 
EA SÁ NA À / NA Nas? Ne 
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Figura B.2 Grafos dirigidos e não dirigidos. (a) Um grafo dirigido G=(V, E), onde V = [1,2,3,4,5,6) ce E = (1,2), 2,2), 2,4), (2,5), (4, 
D, (4,5), (5, 4), (6, 3). A aresta (2, 2) é um laço. (b) Um grafo não dirigido G = (V, E), onde V = (1,2,3,4,5,6 e E = ((1,2),(1,5), (2,5), Q, 
6)+. O vértice 4 é isolado. (c) O subgrafo do grafo da parte (a) induzido pelo conjunto de vértices (1,2,3, 6). 


Se (u, v) é uma aresta em um grafo G = (V, E), dizemos que o vértice v é adjacente ao vértice u. Quando o grafo 
é não dirigido, a relação de adjacência é simétrica. Quando o grafo é dirigido, a relação de adjacência não é 
necessariamente simétrica. Se v é adjacente a u em um grafo dirigido, às vezes, escrevemos u — v. Nas partes (a) e 
(b) da Figura B.2, o vértice 2 é adjacente ao vértice 1, visto que a aresta (1, 2) pertence a ambos os grafos. O vértice 1 
não é adjacente ao vértice 2 na Figura B.2(a), visto que a aresta (2, 1) não pertence ao grafo. 


O grau de um vértice em um grafo não dirigido é o número de arestas que nele incidem. Por exemplo, o vértice 2 
na Figura B.2(b) tem grau 2. Um vértice cujo grau é 0, como o vértice 4 na Figura B.2(b), é isolado. Em um grafo 
dirigido, o grau de saída de um vértice é o número de arestas que saem dele, e o grau de entrada de um vértice é o 
número de arestas que entram nele. O grau de um vértice em um grafo dirigido é seu grau de entrada, mais seu grau de 
saída. O vértice 2 na Figura B.2(a) tem grau de entrada 2, grau de saída 3 e grau 5. 

Um caminho de comprimento k de um vértice u a um vértice u" em um grafo G = (V, E) é uma sequência (v,, 
Vip Vo «o» Vin) de vértices tais que u= vo, u'= vie (vr!, v;) para i = 1,2,..., k O comprimento do caminho é o 
número de arestas no caminho. O caminho contém os vértices v,, V,, ... Vpe as arestas (Vo, V 1), (V4, V5), -.os (Vol, Vi). 
(Sempre existe um caminho de comprimento O de u até wu.) Se existe um caminho p de u até wu”, dizemos que u' é 
acessível a partir de u via p, o que, às vezes, escrevemos como u pu”, se G é dirigido. Um caminho é simples* se 
todos os vértices no caminho são distintos. Na Figura B.2(a), o caminho (1, 2, 5, 4) é um caminho simples de 
comprimento 3. O caminho (2, 5, 4, 5) não é simples. 

Um subcaminho do caminho p = (vo, Vv,, -., V5) é uma subsequência contígua de seus vértices. Isto é, para 
qualquer 0 <i<; <k, a subsequência de vértices (v;, v; + 1, .., v;) é um subcaminho de p. 

Em um grafo dirigido, um caminho (v,, v,, .., V;) forma um ciclo se v, = v, e o caminho contém no mínimo uma 
aresta. O ciclo é simples se, além disso, v,, v,, ..., Vv, são distintos. Um laço é um ciclo de comprimento 1. Dois 
caminhos (Vo, Vj, Vá. Vil, Vo) € (Vo, Vi, Vo) 2, Vy-1, Vo) formam o mesmo ciclo se existe um inteiro j tal que v'i = 
Vqt)) modk para i = 0, 1,..., k — 1. Na Figura B.2(a), o caminho (1, 2, 4, 1) forma o mesmo ciclo que os caminhos (2, 
4, 1,2) e (4, 1,2, 4). Esse ciclo é simples, mas o ciclo (1, 2, 4, 5, 4, 1) não é. O ciclo (2, 2) formado pela aresta (2, 2) 
é um laço. Um grafo dirigido sem nenhum laço é simples. Em um grafo não dirigido, um caminho (v,, V,, .., V,) forma 
um ciclo se v, = v, e todas suas arestas são distintas; o ciclo é simples se v,, v,, ..., V, são distintos. Por exemplo, na 
Figura B.2(b), o caminho (1, 2, 5, 1) é um ciclo. Um grafo que não tenha nenhum ciclo simples é acíclico. 

Um grafo não dirigido é conexo se todo vértice pode ser alcançado de todos os outros vértices. As componentes 
conexas de um grafo não dirigido são as classes de equivalência de vértices sob a relação “pode ser alcançado de”. O 
grafo da Figura B.2(b) tem três componentes conexas: 

(1,2,5), 13, 6! e (4!. Todo vértice em (1, 2, 5! pode ser alcançado de cada um dos outros vértices em (1, 2, 
5+. Um grafo não dirigido é conexo se tem exatamente uma componente conexa. As arestas de uma componente 
conexa são as que incidem somente nos vértices da componente; em outras palavras, a aresta (u, v) é uma aresta de 
uma componente conexa se e somente se u e v são vértices da componente. 

Um grafo dirigido é fortemente conexo se cada vértice pode ser alcançado de qualquer outro vértice. As 
componentes fortemente conexas de um grafo dirigido são as classes de equivalência de vértices sob a relação “são 
mutuamente acessíveis”. Um grafo dirigido é fortemente conexo se tem somente uma componente fortemente conexa. O 
grafo da Figura B.2(a) tem três componentes fortemente conexas: (1, 2, 4, 5!, 43! e (6). Todos os pares de vértices 
em (1, 2, 4, 5) são mutuamente acessíveis. Os vértices (3, 6) não formam uma componente fortemente conexa, visto 
que o vértice 6 não pode ser alcançado do vértice 3. 

Dois grafos G = (V, E) e G'=(V, E” são isomorfos se existe uma bijeção f:V — V talque (u, v) E E see 
somente se (f(u), f(v)) E E”. Em outras palavras, podemos renomear os vértices de G como vértices de G', mantendo 
as arestas correspondentes em G e G'. A Figura B.3(a) mostra um par de grafos isomorfos G e G' com conjuntos de 
vértices respectivos V = (1,2,3,4,5,6h e V' = (u,v, w, x,y, Z;. O mapeamento de V para V dado por 1) = u, 
= vH3)=w N4) =x, HS) = y, f(6) = z dá a função bietora requerida. Os grafos na Figura B.3(b) não são 
isomorfos. Embora ambos tenham cinco vértices e sete arestas, o grafo na parte superior da figura tem um vértice de 
grau 4, e o grafo na parte inferior, não. 

Dizemos que um grafo G' = (V, E) éumsubgrafo de G =(V,E)seV E Ve E' € E. Dado um conjunto V € 
V, o subgrafo de G induzido por V é o grafo G' = (V”, E9, onde 


E'=(u,vcE:u,vevV). 


O subgrafo induzido pelo conjunto de vértices (1, 2, 3, 6! na Figura B.2(a) aparece na Figura B.2(c) e tem o 
conjunto de arestas f(1, 2), (2, 2), (6, 3)+. 

Dado um grafo não dirigido G = (V, E), a versão dirigida de G é o grafo dirigido G' = (V, EN, onde (u, v) E E' 
se e somente se (u, v) E E. Isto é, substituímos cada aresta não dirigida (u, v) em G pelas duas arestas dirigidas (u, v) 
e (v, u) na versão dirigida. Dado um grafo dirigido G = (V, E), a versão não dirigida de G é o grafo não dirigido G' = 
(V, EM, onde (u, v) E E' se e somente se u £ v e E contem pelo menos uma das arestas (u, v) e (v, u). Isto é, a 
versão não dirigida contém as arestas de G “com suas direções eliminadas” e com laços também eliminados. (Como (u, 
v) e (v, u) são a mesma aresta em um grafo não dirigido, a versão não dirigida de um grafo dirigido a contém somente 
uma vez, mesmo que o grafo dirigido contenha as arestas (u, v) e (v, u).) Em um grafo dirigido G = (V, E), um vizinho 
de um vértice u é qualquer vértice adjacente a u na versão não dirigida de G. Isto é, v é um vizinho de u seu £ v e, ou 
(u,v) E Eou(v,u) E E. Em um grafo não dirigido, u e v são vizinhos se são adjacentes. 


(a) (b) 


Figura B.3 (a) Um par de grafos isomorfos. Os vértices do grafo na parte superior da figura são mapeados para os vértices do grafo na 
parte inferior da figura por MD = u, ND) =v,A)=w, KI) =x,Ã5) = ,Ã6) =. (b) Dois grafos que não são isomorfos, visto que o grafo na 
parte superior da figura tem um vértice de grau 4e o grafo na parte inferior da figura não tem. 


Vários tipos de grafos têm nomes especiais. Um grafo completo é um grafo não dirigido no qual todo par de 
vértices é adjacente. Um grafo bipartido é um grafo não dirigido G = (V, E) no qual V pode ser particionado em dois 
conjuntos V, e V, tais que (u, v) E E implicaouu E VevEe V,ouu E V,ev E V, Isto é, todas as arestas ficam 
entre os dois conjuntos V, e V,. Um grafo acíclico não dirigido é uma floresta, e um grafo conexo acíclico não dirigido 
é uma árvore (livre) (veja a Seção B.5). Muitas vezes, tomamos as primeiras letras de “grafo acíclico dirigido” e 
denominamos tal grafo gad. 

Há duas variantes de grafos que você poderá encontrar ocasionalmente. Um multigrafo é semelhante a um grafo 
não dirigido, mas pode ter várias arestas entre os mesmos vértices e laços. Um hipergrafo é semelhante a um grafo não 
dirigido, mas cada hiperaresta, em vez de conectar dois vértices, conecta um subconjunto arbitrário de vértices. 
Muítos algoritmos escritos para grafos dirigidos e não dirigidos comuns podem ser adaptados para funcionar nessas 
estruturas semelhantes a grafos. 

A contração de um grafo não dirigido G = (V, E) por uma aresta e = (u, v) é um grafo G' = (V, E), onde V' = V 
— fu, vi U (x) ex é um novo vértice. O conjunto de arestas E” é formado por E, sem a aresta (u, v) e, para cada 
vértice w adjacente a u ou v, é eliminada a aresta (u, w) ou a aresta (v, w), dependendo de qual está em E, e em seu 
lugar é adicionado a nova aresta (x, w). Na prática, u e n são “contraídos”a um vértice só. 


Exercícios 


B.4-1 


B.4-2 


B.4-3 


B.4-4 


B.4-5 


B.4-6 


B.5 


Os participantes de uma festa de professores de uma faculdade cumprimentam-se com um aperto de mão e 
cada professor memoriza quantas pessoas cumprimentou. No final da festa, o chefe do departamento soma o 
número de vezes que cada professor cumprimentou os outros. Mostre que o resultado é par, provando o 
lema do cumprimento: se G = (V, E) é um grafo não dirigido, então 


> grau(v)=2]El. 


veV 


Mostre que, se um grafo dirigido ou não dirigido contém um caminho entre dois vértices u e v, contém um 
caminho simples entre u e v. Mostre que, se um grafo dirigido contém um ciclo, então contém um ciclo 


simples. 
Mostre que qualquer grafo conexo não dirigido G = (V, E) satisfaz |E| > |V|— 1. 


Verifique que em um grafo não dirigido, a relação “pode ser alcançado de” é uma relação de equivalência para 
os vértices do grafo. Qual das três propriedades de uma relação de equivalência é válida em geral para a 
relação “pode ser alcançado de” para os vértices de um grafo dirigido? 


Qual é a versão não dirigida do grafo dirigido na Figura B.2(a)? Qual é a versão dirigida do grafo não dirigido 
na Figura B.2(b)? 


* 


Mostre que podemos representar um hipergrafo por um grafo bipartido sempre que a incidência no hipergrafo 
corresponda à adjacência no grafo bipartido. (Sugestão: Faça com que um conjunto de vértices no grafo 
bipartido corresponda a vértices do hipergrafo e com que o outro conjunto de vértices do grafo bipartido 
corresponda a hiperarestas.) 


ÁRVORES 


Do mesmo modo que para os grafos, há muitas noções de árvores relacionadas, embora ligeiramente diferentes. 
Esta seção apresenta definições e propriedades matemáticas de vários tipos de árvores. As Seções 10.4 e 22.1 
descrevem como representamos árvores na memória de computadores. 


B.5.1 ÁRVORES LIVRES 


Como definimos na Seção B.4, uma árvore livre é um grafo acíclico conexo não dirigido. Muitas vezes, omitimos 
o adjetivo “livre” quando dizemos que um grafo é uma árvore. Se um grafo não dirigido é acíclico mas possivelmente 
desconexo, é uma floresta. Muitos algoritmos que funcionam para árvores também funcionam para florestas. A Figura 
B.4(a) mostra uma árvore livre e a Figura B.4(b) mostra uma floresta. A floresta na Figura B.4(b) não é uma árvore 
porque não é conexa. O grafo na Figura B.4(c) não é nem uma árvore nem uma floresta porque contém um ciclo. 

O teorema a seguir abrange muitos fatos importantes sobre árvores livres. 


Teorema B.2 (Propriedades de árvores livres) 


Seja G = (V, E) um grafo não dirigido. As afirmativas a seguir são equivalentes. 


G é uma árvore livre. 

Quaisquer dois vértices em G estão ligados por um caminho simples único. 

G é conexo, mas, se qualquer aresta for eliminada de E, o grafo resultante é desconexo. 

G é conexo e |E|=|V|- 1. 

G é acíclico e |E|= |V] - 1. 

G é acíclico, mas, se qualquer aresta for adicionada a E, o grafo resultante contém um ciclo. 


Onion q GOO a 


Prova (1) > (2): Dado que uma árvore é conexa, quaisquer dois vértices em G estão ligados por no mínimo um 
caminho simples. Suponha, por contradição, que os vértices u e v estão ligados por dois caminhos simples distintos p, e 
Pp», como mostra a Figura B.5. Seja w o vértice no qual os caminhos divergem pela primeira vez; isto é, w é o primeiro 
vértice em p, e também em p, cujo sucessor em p, é x e cujo sucessor em p, é y, onde x £ y. Seja z o primeiro vértice 
no qual os caminhos reconvergem; isto é, z é o primeiro vértice que vem depois de w em p, que também está em p.. 
Seja p' o subcaminho de p, que parte de w e passa por x e chega até z, e seja p” o subcaminho de p, que parte de w e 
passa por y e chega até z. Os caminhos p' e p” não compartilham nenhum vértice, exceto suas extremidades. Assim, o 
caminho obtido pela concatenação de p' com o inverso de p” é um ciclo, o que contradiz nossa hipótese de que G é 
uma árvore. Assim, se G é uma árvore, pode haver, no máximo, um caminho simples entre dois vértices. 

(2) (3): Se quaisquer dois vértices em G estão ligados por um caminho simples único, então G é conexo. Seja 
(u, v) qualquer aresta em E. Essa aresta é um caminho de u a v e, portanto, deve ser o caminho único de u até v. Se 
eliminarmos (u, v) de G, não há nenhum caminho de u a v e, consequentemente, sua eliminação torna G desconexo. 


N 


(a) (b) (c) 


Figura B.4 (a) Uma árvore livre. (b) Uma floresta. (c) Um grafo que contém um ciclo e que, portanto, não é nem uma árvore nem uma 
floresta. 


Figura B.5 Uma etapa na prova do Teorema B.2:se (1) G é uma árvore livre, então (2) quaisquer dois vértices em G estão ligados por um 
caminho simples único. Considere, por contradição, que os vértices u e v são ligados por dois caminhos simples distintos pe p, . Esses 


caminhos divergem primeiro no vértice w e depois reconvergem primeiro no vértice z. O caminho p' concatenado como inverso do 
caminho p” forma um ciclo, o que produza contradição. 


(3)= (4): Por hipótese, o grafo G é conexo e, pelo Exercício B.4-3, temos |E| > |V| - 1. Provaremos |[E|<|V/— 1 
por indução. Um grafo conexo com n = 1 oun = 2 vértices temn — 1 arestas. Suponha que G tenha n < 3 vértices e 
que todos os grafos que satisfazem (3) com menos de n vértices também satisfazem |E| < |V| — 1. Eliminar uma aresta 
arbitrária de G separa o grafo em k > 2 componentes conexas (na realidade, k = 2). Cada componente satisfaz (3) ou, 
do contrário, G não satisfária (3). Se virmos cada componente conexa Vi, com conjunto de arestas E, como sua 
própria árvore livre, então, visto que cada componente tem menos do que |V] vértices, pela hipótese de indução temos 
IE | <|V|]|-— 1. Assim, o número de arestas em todas as componentes combinadas é, no máximo, |V| — k < |V] — 2. 
Adicionar a aresta eliminada produz |E| < |V|— 1. 

(4) > (5): Suponha que G seja conexo e que |E| = |V] - 1. Devemos mostrar que G é acíclico. Suponha que G 
tenha um ciclo que contém k vértices vi, v>, ..., vz e, sem perda da generalidade, suponha que esse ciclo seja simples. 
Seja G+ = (Vs, Er) o subgrafo de G que consiste no ciclo. Observe que |V:| = |Ei| = k. Se k < |V], deve existir um 
vértice vt E V- V, que é adjacente a algum vértice vi Vs, visto que G é conexo. Defina Gi+= (Vit, Ei+1) como 
o subgrafo de G com Vi = Vk U fvrti) e Et = E: U (vi vit. Observe que |[Vih|= |E+H|=k + 1. Sek+ 1 <IV, 
podemos continuar, definindo G:+> da mesma maneira, e assim por diante, até obtermos G, = (V,, E,), onde n = |V), V, 
= Ve |E,| = |V.| = |V]. Como G, é um subgrafo de G, temos E, & E e, portanto, |E| < |V], o que contradiz a hipótese 
de que [E] = |V] - 1. Assim, G é acíclico. 

(5 )= (6): Suponha que G seja acíclico e que |E| = |V] - 1. Seja k o número de componentes conexas de G. Cada 
componente conexa é uma árvore livre por definição e, visto que (1) implica (5), a soma de todas as arestas em todas 
as componentes conexas de G é |V| — k. Consequentemente, devemos ter k = 1, e G é de fato uma árvore. Visto que 
(1) implica (2), quaisquer dois vértices em G estão ligados por um caminho simples único. Portanto, adicionar qualquer 
aresta a G cria um ciclo. 

(6) > (1): Suponha que G seja acíclico, mas que adicionar qualquer aresta a E cria um ciclo. Devemos mostrar 
que G é conexo. Sejam u e v vértices arbitrários em G. Se u e v ainda não forem adjacentes, adicionar a aresta (u, v) 
cria um ciclo no qual todas as arestas com exceção de (u, v) pertencem a G. Assim, o ciclo menos a aresta (u, v) deve 
conter um caminho de u a v e, visto que u e v foram escolhidos arbitrariamente, G é conexo. 


B.5.2 ÁRVORES ENRAIZADAS E ÁRVORES ORDENADAS 


Uma árvore enraizada é uma árvore livre na qual um dos vértices é destacado. Denominamos raiz da árvore esse 
vértice distinto. Muitas vezes nos referimos a um vértice de uma árvore enraizada como um nós da árvore. A Figura 
B.6(a) mostra uma árvore enraizada em um conjunto de 12 nós com raiz 7. 

Considere um nó x em uma árvore enraizada T com raiz r. Denominamos qualquer nó y no caminho simples único 
der ax por ancestral de x. Se y é um ancestral de x, então x é um descendente de y. (Todo nó é ao mesmo tempo 
um ancestral e um descendente de si mesmo.) Se y é um ancestral de x e x £ y, então y é um ancestral próprio de x, e 
x é um descendente próprio de y. A subárvore enraizada em x é a árvore induzida por descendentes de x com raiz 
emx. Por exemplo, a subárvore enraizada no nó 8 na Figura B.6(a) contém os nós 8, 6, 5 € 9. 

Se a última aresta no caminho simples da raiz r de uma árvore T a um nó x é (y, x), então y é o pai de x, e x é um 
filho de y. A raiz é o único nó em T que não tem nenhum pai Se dois nós têm o mesmo pai, eles são irmãos. Um nó 
sem nenhum filho é uma folha ou um nó externo. Um nó que não é uma folha é um nó interno. 

O número de filhos de um nó x em uma árvore enraizada T é denominado grau de x.é O comprimento do caminho 
simples da raiz r a um nó x é a profundidade de x em 7. Um nível de uma árvore consiste em todos os nós que estão 
na mesma profundidade. A altura de um nó em uma árvore é o número de arestas no caminho simples descendente 
mais longo do nó a uma folha, e a altura de uma árvore é a altura de sua raiz. A altura de uma árvore também é igual à 
maior profundidade de qualquer nó na árvore. 


Uma árvore ordenada é uma árvore enraizada na qual os filhos de cada nó estão ordenados. Isto é, se um nó tem 
k filhos, então existe um primeiro filho, um segundo filho, ... e um k-ésimo filho. As duas árvores na Figura B.6 são 
diferentes quando consideradas como árvores ordenadas, mas são idênticas quando consideradas apenas como árvores 
enraizadas. 


A (7) profundidade O (7) 

(3) (10) (4) profundidade 1 (3) (10) O 
altura=4 (8) (12) (11) (2) profundidade 2 (12) (8) (i) (2) 
(6) (5) (1) profundidade 3 (TD) (6) (5) 

Y (9) profundidade 4 (9) 


(a) (b) 


Figura B.6 Árvores enraizadas e árvores ordenadas. (a) Uma árvore enraizada com altura 4. A árvore é desenhada de um modo padrão: a 
raiz (nó 7) está na parte superior, seus filhos (os nós com profundidade 1) estão abaixo dela, os filhos de seus filhos (nós com 
profundidade 2) estão abaixo destes, e assim por diante. Se a árvore é ordenada, a ordemrelativa da esquerda para a direita dos filhos de 
um nó é importante; caso contrário, não é importante. (b) Outra árvore enraizada. Como uma árvore enraizada, ela é idêntica à árvore em 
(a), mas, como uma árvore ordenada, ela é diferente, visto que os filhos do nó 3 aparecem em uma ordem diferente. 


B.5.3 ÁRVORES BINÁRIAS E ÁRVORES POSICIONAIS 


Definimos árvores binárias recursivamente. Uma árvore binária T é uma estrutura definida para um conjunto finito 
de nós que 


* não contém nenhum nó ou 
* é composta por três conjuntos disjuntos de nós: um nó raiz, uma árvore binária denominada sua subárvore da 
esquerda e uma árvore binária denominada sua subárvore da direita. 


A árvore binária que não contém nenhum nó é denominada árvore vazia ou árvore nula, às vezes, denotada por 
IL. Se à subárvore da esquerda é não vazia, sua raiz é denominada filho da esquerda da raiz da árvore inteira. Da 
mesma forma, a raiz de uma subárvore da direita não nula é o filho da direita da raiz da árvore inteira. Se uma 
subárvore é a árvore nula nm, dizemos que o filho está ausente ou está faltando. A Figura B.7(a) mostra uma árvore 
binária. 

Uma árvore binária não é simplesmente uma árvore ordenada na qual cada nó tem, no máximo, grau 2. Por 
exemplo, em uma árvore binária, se um nó tem apenas um filho, a posição do filho — seja ele o filho da esquerda ou 
o filho da direita — é importante. Em uma árvore ordenada, não há como distinguir se um filho isolado é um filho da 
esquerda ou da direita. A Figura B.7(b) mostra uma árvore binária que é diferente da árvore na Figura B.7(a) por causa 
da posição de um único nó. Contudo, se consideradas como árvores ordenadas, as duas árvores são idênticas. 

Podemos representar as informações de posicionamento em uma árvore binária pelos nós internos de uma árvore 
ordenada, como mostra a Figura B.7(c). A ideia é substiturr cada filho que falta na árvore binária por um nó que não 
tem nenhum filho. Esses nós de folha estão desenhados como quadrados na figura. A árvore resultante é uma árvore 
binária cheia: cada nó ou é uma folha ou tem grau exatamente 2. Não há nós de grau 1. Consequentemente, a ordem 
dos filhos de um nó preserva as informações de posição. 

Podemos estender as informações de posicionamento que distinguem árvores binárias de árvores ordenadas a 
árvores com mais de dois filhos por nó. Em uma árvore posicional, os filhos de um nó são identificados por números 


inteiros positivos distintos. O i-ésimo filho de um nó é ausente se nenhum filho é identificado com o inteiro à. Uma 
árvore k-ária é uma árvore posicional na qual, para todo nó, todos os filhos com rótulos maiores que k estão faltando. 
Assim, uma árvore binária é uma árvore k-ária com k = 2. 

Uma árvore k-ária completa é uma árvore k-ária na qual todas as folhas têm a mesma profundidade e todos os 
nós internos têm grau k. A Figura B.8 mostra uma árvore binária completa de altura 3. Quantas folhas tem uma árvore 
k-ária completa de altura A? A raiz tem k filhos na profundidade 1, cada um deles tem k filhos na profundidade 2, e 
assim por diante. Então, o número de folhas na profundidade h é k,. Consequentemente, a altura de uma árvore k-ária 
completa com n folhas é logkn. O número de nós internos de uma árvore k-ária completa de altura h é 


h—1 
TERA 44 =Sk 
i=0 


K-1 
k—1 


pela equação (A.5). Assim, uma árvore binária completa tem 24 — 1 nós internos. 


(83) 


(a) (b) (c) 


Figura B.7 Árvores binárias. (a) Uma árvore binária desenhada de um modo padrão. O filho da esquerda de umnó é desenhado abaixo e 
à esquerda do nó. O filho da direita é desenhado abaixo e à direita do nó. (b) Uma árvore binária diferente da que está em (a). Em (a), o 
filho da esquerda do nó 7 é 5, e o filho da direita está ausente. Em (b), o filho da esquerda do nó 7 está ausente e o filho da direita é 5. 
Como árvores ordenadas, essas árvores são idênticas, mas, como árvores binárias, elas são distintas. (c) A árvore binária em(a) 
representada pelos nós internos de uma árvore binária cheia: uma árvore ordenada na qual cada nó interno temgrau 2. As folhas na 
árvore são mostradas como quadrados. 


| 


profundidade O 
profundidade 1 
altura = 3 


profundidade 2 


profundidade 3 


Figura B.8 Uma árvore binária completa de altura 3 comoito folhas e sete nós internos. 


Exercícios 


B.5-1 


Desenhe todas as árvores livres compostas pelos três vértices x, y e z. Desenhe todas as árvores enraizadas 
comnós x, y e z que têm x como raiz. Desenhe todas as árvores ordenadas com nós x, y e z que têm x como 
raiz. Desenhe todas as árvores binárias com nós x, y e z que têm x como raiz. 


B.5-2 Seja G = (V, E) um grafo acíclico dirigido no qual existe um vértice v; & V tal que existe um caminho único 
de v, até todo vértice v E V. Prove que a versão não dirigida de G forma uma árvore. 

B.5-3 Mostre por indução que o número de nós de grau 2 em qualquer árvore binária não vazia é uma unidade 
menor que o número de folhas. Conclua que o número de nós internos em uma árvore binária cheia é uma 
unidade menor que o número de folhas. 

B.5-4 Use indução para mostrar que uma árvore binária não vazia com n nós tem altura de, no mínimo, lg n. 

B.5-5 * 

O comprimento de caminho interno de uma árvore binária cheia é a soma, aplicada a todos os nós 
internos da árvore, das profundidades de cada nó. De modo semelhante, o compri- mento de caminho 
externo é a soma, aplicada a todas as folhas da árvore, das profundidades de cada folha. Considere uma 
árvore binária cheia com n nós internos, comprimento de caminho interno i e comprimento de caminho externo 
e. Prove que e=i+2n. 

B.5-6 * 

Vamos associar um “peso” w(x) = 2-d a cada folha x de profundidade d em uma árvore binária T e seja L o 
conjunto de folhas de T. Prove que >x€EL w(x) < 1. (Isso é conhecido como desigualdade de Kraft.) 

B.5-7 * 

Mostre que, se L > 2, então toda árvore binária com L folhas contém uma subárvore que tem entre 1/3 e 21/3 
folhas, inclusive. 

Problemas 

B-1 Coloração de grafos 


Dado um grafo não dirigido G =(V, E), uma k-coloração é uma função c :V > (0, 1,...,k— 1) tal que c(u) 
+ c(v) para toda aresta (u, v) &€ E. Em outras palavras, os números 0, 1, ..., k — 1 representam as k cores, e 
vértices adjacentes devem ter cores diferentes. 


a. Mostre que qualquer árvore pode ser 2-colorida. 
b. Mostre que os itens seguintes são equivalentes: 
1. G é bipartido. 

2. G pode ser 2-colorido. 

3. G não tem nenhum ciclo de comprimento ímpar. 


c. Sejad o grau máximo de qualquer vértice em um grafo G. Prove que podemos colorir G com d + 1 
cores. 


d. Mostre que, se G tem O(|V|) arestas, então G pode ser colorido com O( |V|) cores. 


B-2 Grafos de amigos 


Reescreva cada uma das declarações a seguir como um teorema para grafos não dirigidos e depois prove o 
teorema. Considere que amizade é simétrica, mas não reflexiva. 


a. Qualquer grupo de no mínimo duas pessoas contém no mínimo duas pessoas com o mesmo número de 
amigos no grupo. 


b. Todo grupo de seis pessoas contém no mínimo três amigos mútuos ou no mínimo três estranhos mútuos. 


c. Qualquer grupo de pessoas pode ser repartido em dois subgrupos tais que no mínimo metade dos amigos 
de cada pessoa pertence ao subgrupo do qual essa pessoa não é um membro. 


d. Se toda pessoa em um grupo é amiga de no mínimo metade das pessoas no grupo, então o grupo pode 
se sentar em torno de uma mesa de tal modo que toda pessoa fique sentada entre dois amigos. 


B-3 Bisseção de árvores 


Muítos algoritmos de divisão e conquista aplicáveis a grafos exigem que o grafo seja dividido em dois 
subgrafos de tamanhos aproximadamente iguais, que são induzidos por uma partição dos vértices. Este 
problema investiga a bisseção de árvores formadas pela eliminação de um pequeno número de arestas. Exige- 
se, sempre que dois vértices acabam na mesma subárvore após a eliminação de arestas, que estejam na 
mesma partição. 


a. Mostre que podemos particionar os vértices de qualquer árvore binária de n vértices em dois conjuntos 4 
e B, tais que |4| < 3n/4 e |B| < 3n/4, eliminando uma única aresta. 


b. Mostre que a constante 3/4 na parte (a) é ótima no pior caso dando um exemplo de árvore binária 
simples cuja partição de equilíbrio mais uniforme obtida com a eliminação de uma única aresta tenha |4| = 
3n/4. 


c. Mostre que, removendo no máximo O(lg n) arestas, podemos particionar os vértices de qualquer árvore 
binária de n vértices em dois conjuntos 4 e B tais que |4|=n/2 e |B|=n/2. 


NorTas DO CAPÍTULO 


G. Boole foi o pioneiro no desenvolvimento da lógica simbólica e introduziu muitas das notações básicas de 
conjuntos em um livro publicado em 1854. A moderna teoria dos conjuntos foi criada por G. Cantor durante o período 
de 1874 a 1895. Cantor focalizou principalmente os conjuntos de cardinalidade infinita. O termo “função” é atribuído a 
G. W. Leibniz, que o usou para se referir a várias espécies de fórmulas matemáticas. Sua definição limitada foi 
generalizada várias vezes. A teoria dos grafos teve origem em 1736, quando L. Euler provou que era impossível cruzar 
cada uma das sete pontes da cidade de K ônigsberg exatamente uma vez e retornar ao ponto de partida. 

O livro de Harary [160] é um compêndio útil de muitas definições e resultados da teoria dos grafos. 


1Uma variação de um conjunto, que pode conter o mesmo objeto mais de uma vez, é denominada multiconjunto. 

2Alguns autores começam os números naturais com 1 em vez de 0. A tendência modema parece ser começar com 0. 

3 Para sermos exatos, para que a relação “caber dentro de” seja uma ordem parcial, precisamos adotar que uma caixa cabe dentro dela 
mesma. 

«Alguns autores referem-se ao que denominamos caminho como um “passeio” e ao que denominamos caminho simples como 
“caminho” apenas. Usamos os termos “caminho” e “caminho simples” emtodo este livro de modo compatível com suas definições. 


s O termo “nó” é muito usado na literatura da teoria dos grafos como sinônimo de “vértice”. Reservaremos o termo “nó” para indicar um 
vértice de uma árvore enraizada. 

6 Observe que o grau de um nó depende de considerarmos T como uma árvore enraizada ou como uma árvore livre. O grau de um vértice 
em uma árvore livre é, como em qualquer grafo não dirigido, o número de vértices adjacentes. Porém, em uma árvore enraizada, o grau é 
o número de filhos — o pai de umnó não conta para definir seu grau. 


ConTAGEM E PROBABILIDADE 


Este capítulo faz uma revisão da análise combinatória elementar e da teoria da probabilidade. Se o leitor tiver um 
bom conhecimento nessas áreas, basta ler rapidamente o início do capítulo e se concentrar nas últimas seções. A maior 
parte dos capítulos deste livro não requer que o leitor conheça probabilidade, mas para alguns capítulos tal 
conhecimento é essencial. 

A Seção C.1 faz uma revisão dos resultados elementares de teoria da contagem, incluindo fórmulas padrões para 
contagem de permutações e combinações. Os axiomas da probabilidade e os fatos básicos relativos a distribuições de 
probabilidade são apresentados na Seção C.2. Variáveis aleatórias são introduzidas na Seção C.3, juntamente com as 
propriedades de esperança e variância. A Seção C.4 examina as distribuições geométricas e binomiais que surgem do 
estudo de tentativas de Bernoull. O estudo da distribuição binomial continua na Seção C.5, uma discussão avançada 
das “caudas” da distribuição. 


C.1 Contagem 


A teoria da contagem tenta responder à pergunta “quantos(as)?” sem realmente enumerar todas as escolhas. Por 
exemplo, poderíamos perguntar: “Quantos números diferentes de n bits existem?” ou “Quantas ordenações de n 
elementos distintos existem?” Nesta seção, faremos uma revisão dos elementos da teoria da contagem. Visto que parte 
do material pressupõe uma compreensão básica de conjuntos, aconselhamos o leitor a começar pela revisão do material 
na Seção B.1. 


Regras da soma e do produto 


Ás vezes, podemos expressar um conjunto de itens que desejamos contar como uma união de conjuntos disjuntos 
ou como um produto cartesiano de conjuntos. 

A regra da soma afirma que o número de modos de escolher um elemento de um entre dois conjuntos disjuntos é 
a soma das cardinalidades dos conjuntos. Ou seja, se 4 e B são dois conjuntos finitos sem nenhum membro em comum, 
então |4 U B|= |4|+ |B|, que decorre da equação (B.3). Por exemplo, cada posição na placa de um automóvel é uma 
letra ou um dígito. Portanto, o número de possibilidades para cada posição é 26 + 10 = 36, já que existem 26 escolhas 
se for uma letra e 10 escolhas se for um digito. 

A regra do produto afirma que o número de modos de escolher um par ordenado é o múmero de modos de 
escolher o primeiro elemento vezes o número de modos de escolher o segundo elemento. Isto é, se 4 e B são dois 
conjuntos finitos, então |4 - B| = |4|:|B|, que é simplesmente a equação (B.4). Por exemplo, se uma sorveteria oferece 
28 sabores de sorvete e quatro coberturas, o número de sundaes possíveis com uma bola de sorvete e uma cobertura é 
28 :4=112. 


Cadeias 


Uma cadeia em um conjunto finito S é uma sequência de elementos de S. Por exemplo, há oito cadeias binárias de 
comprimento 3: 


000, 001, 010, 011, 100, 101, 110, 111. 


Às vezes, denominamos uma cadeia de comprimento k k-cadeia. Uma subcadeia s' de um cadeia s é uma 
sequência ordenada de elementos consecutivos de s. Uma k-subcadeia de uma cadeia é uma subcadeia de 
comprimento k. Por exemplo, 010 é uma 3-subcadeia de 01101001 (a 3-subcadeia que começa na posição 4), mas 
111 não é uma subcadeia de 01101001. 

Podemos ver uma k-cadeia em um conjunto S como um elemento do produto cartesiano S, de tuplas de k 
elementos; assim, existem |S|* cadeias de comprimento k. Por exemplo, o número de cadeias binárias de k elementos é 
2%. Intuitivamente, para construir uma cadeia de k elementos em um conjunto de n elementos, temos n modos de 
escolher o primeiro elemento; para cada uma dessas opções, temos n modos de escolher o segundo elemento, e assim 
por diante k vezes. Essa construção conduz ao produto de k termos n : n... n = n, como o número de cadeias de k 
elementos. 


Permutações 


Uma permutação de um conjunto finito S é uma sequência ordenada de todos os elementos de S, sendo que cada 
elemento aparece exatamente uma vez. Por exemplo, se S = (a, b, c), então S tem seis permutações: 


abc, acb, bac, bca, cab, cba. 


Há n! permutações de um conjunto de n elementos, visto que o primeiro elemento da sequência pode ser escolhido 
de n modos, o segundo de n — 1 modos, o terceiro de n — 2 modos, e assim por diante. 

Uma k-permutação de S é uma sequência ordenada de k elementos de S na qual nenhum elemento aparece mais 
de uma vez (assim, uma permutação comum é apenas uma permutação de n elementos de um conjunto de n elementos). 
As doze 2-permutações do conjunto (a, b, c, d! são 


ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. 
O número de k-permutações de um conjunto de n elementos é 


n! 


-1X(n-2)..(n-k+1) = 
n(n = Dn 2)... (n>k+1) (n- 9!” 


(C.1) 


visto que há n modos de escolher o primeiro elemento, n — 1 modos de escolher o segundo elemento, e assim por 
diante, até selecionarmos k elementos, sendo o último elemento uma seleção dos n — k + 1 elementos restantes. 


Combinações 


Uma k-combinação de um conjunto S de n elementos é simplesmente um k-subconjunto de S. Por exemplo, o 
conjunto de quatro elementos (a, b, c, dy tem seis 2-combinações: 


ab, ac, ad, bc, bd, cd . 


(Aqui usamos a forma reduzida de denotar o conjunto de dois elementos fa, b! por ab, e assim por diante.) 
Podemos construir uma k-combinação de um conjunto de n elementos escolhendo k elementos distintos (diferentes) do 
conjunto de n elementos. 

Podemos expressar o número de combinações de k elementos de um conjunto de n elementos em termos do 
número de permutações de k elementos de um conjunto de n elementos. Toda k-combinação tem exatamente k! 


permutações de seus elementos, cada uma das quais é uma k-permutação distinta do n-conjunto. Assim, o número de 
k-combinações de um n-conjunto é o número de k-permutações dividido por k!; pela equação (C.1), essa quantidade é 


n! 


ki(n—k)! (C.2) 


Para k = 0, essa fórmula nos informa que o número de modos de escolher O elementos de um n-conjunto é 1 (e 
não 0), já que 0! = 1. 


Coeficientes binomiais 


A notação (4) (lê-se “n escolhe k”) denota o número de k-combinações em um n-conjunto. Pela equação (C.2), 
temos 


k) kn—k)! 
Essa fórmula é simétrica em k e emn — k: 
n o 
k 
Esses números também são conhecidos como coeficientes binomiais porque aparecem na expansão binomial: 


(x+y)" = Rd 


k=0 k 


n | 
n—k (C.3) 


- do (C.4) 


Um caso especial da expansão binomial ocorre quando x = y = 1: 


o" o "In 
p=o | K 


Essa fórmula corresponde a contar as 2, cadeias binárias de n elementos pelo número de Is que elas contêm: n- 
cadeias binárias (,*) contêm exatamente k 1s, já que há (4) modos de escolher k dentre as n posições nas quais colocar 


os 1s. 
Muttas identidades envolvem coeficientes binomiais. Os exercícios no final desta seção lhe dão a oportunidade de 


provar algumas delas. 


Limites para binomiais 


Às vezes, precisamos limitar o tamanho de um coeficiente binomial. Para 1 <k <n, temos o limite inferior 


E n(n—1)...(n—k+1) 


: 


k(k—1)...1 
EE CS E 
Elk) | 
Sa n| 
k 


Tirando proveito da desigualdade k! > (k/e)k deduzida da aproximação de Stirling (3.18), obtemos os limites 
superiores 


ny n(n— D..(n—k+1) 
k k(k — 1)...1 


(C.5) 


Para todos os inteiros k tais que O < k <n, podemos usar a indução (veja o Exercício C.1-12) para provar o limite 


a RE 
k(n— ko)" * (C.6) 
onde, por conveniência, adotamos 00 = 1. Para k = In, onde O</< 1, podemos reescrever esse limite como 


n 


n < n 
An) (AA) 
À EA 
ANA il 
“ullima 
= 9"H(), 
onde 
H(A)=-AlgA-(1-A)Ig(1-A) (C.7) 


é a função entropia (binária) e onde, por conveniência, adotamos O lg O = 0, de modo que H(0) = H(1) = 0. 


Exercícios 


C.1-1 Quantas subcadeias de k elementos tem uma cadeia de n elementos? (Considere subcadeias idênticas de k 
elementos em posições diferentes como subcadeias diferentes.) Quantas subcadeias uma cadeia de n 
elementos tem no total? 


C.1-2 Uma função booleana de n entradas e m saídas é função de (Truc, FaLse), para (True, FaLsejm. Quantas 
funções booleanas de n entradas e 1 saída existem? Quantas funções booleanas de n entradas e m saídas 


C 1-3 


C.I-4 


C.1-5 


C.1-6 


C.1-7 


C.1-8 


C.1-9 


existem? 


De quantos modos n professores podem se sentar em torno de uma mesa de reuniões redonda? Considere 
duas arrumações iguais se uma pode ser rodada para formar a outra. 


De quantos modos podemos escolher três números distintos no conjunto f1, 2, ..., 99) de modo que sua 
soma seja par? 


Prove a identidade 


o njn—1 
2 EE ] E 


n 
k 


para0<k<n. 


Prove a identidade 


n n In—l 


k) n—kl k 
para 0 <k <n. 


Para escolher k objetos de n, você pode destacar um dos objetos e considerar se tal objeto diferenciado é 
escolhido. Use essa abordagem para provar que 


n n—1 n—1 
+ 
k k K—1 


Usando o resultado do Exercício C.1-7, organize uma tabela para n = 0, 1,...,6e0<k<n dos coeficientes 
binomais (,*) que tenham (90) na parte superior e (10) na linha segunte, e assim por diante. Essa tabela de 
coeficientes binomiais é denominada tri- ângulo de Pascal. 


Prove que 


C.1-10 Mostre que, para quaisquer inteiros n > 0e 0<k <n, a expressão (,) alcança seu valor máximo quando k = 


n/2 ou k = n/2. 


C.I-I1 &X Demonstre que, para quaisquer inteiros n>0,/>0,k>0ej+k<n, 


n 
j+k 


(C.9) 


: 
Dê uma prova algébrica e também uma demonstração baseadas em um método para escolher j + k itens de n 
itens. Dê um exemplo no qual a igualdade não seja válida. 


C.1-12 % Use indução para todos os inteiros k tais que O < k < n/2 para provar a desigualdade (C.6), e use a 
equação (C.3) para estendê-la a todos os inteiros k tais que O <k <n. 


C.1-13 X Use a aproximação de Stirling para provar que 


-2 1+0(1/n) (C10) 


mn 


2n 


n 


C.1-14 X Diferenciando a função entropia H(/), mostre que ela alcança seu valor máximo em / = 1/2. O que é 
H(1/2)? 


C.1-15 XX Mostre que, para qualquer inteiro n > 0, 


» 


k=0 


n ne n—1 
sia (C.11) 


C.2 ProBaBILIDADE 


Probabilidade é uma ferramenta essencial para o projeto e a análise de algoritmos probabilísticos e aleatorizados. 
Esta seção faz uma revisão da teoria básica da probabilidade. 

Definimos probabilidade em termos de um espaço amostral S, que é um conjunto cujos elementos são 
denominados eventos elementares. Cada evento elementar pode ser visto como um resultado possível de um 
experimento. No caso do experimento de lançar duas moedas distinguíveis, no qual cada lançamento individual resulta 
em uma cara (Hr) ou uma coroa (r) podemos considerar como espaço amostral o conjunto de todas as cadeias possíveis 
de dois elementos em (fu, rt: 

S= fem, Hr, TH, Trh. 

Um evento é um subconjunto! do espaço amostral S. Por exemplo, no experimento de lançar duas moedas, o 
evento de obter uma cara e uma coroa é (ur, 1H). O evento S é denominado evento certo, e o evento f é denominado 
evento nulo. Dizemos que dois eventos 4 e B são mu- tuamente exclusivos se A N B = /0. Algumas vezes tratamos 
um evento elementar s E S como o evento fs). Por definição, todos os eventos elementares são mutuamente 
exclusivos. 


Axiomas de probabilidade 


Uma distribuição de probabilidades Prf! em um espaço amostral S é um mapeamento de eventos de S para 
números reais que satisfaça os seguintes axiomas de probabilidade: 
1. Prf4) > 0 para qualquer evento 4. 

2. PríS) = 1. 

3. Pri4 U B) = Pr(4) + Pr(B) para quaisquer dois eventos mutuamente exclusivos 4 e B. De modo mais geral, 
para qualquer sequência de eventos (finita ou infinita contável) 4,, 4,, ... que sejam mutuamente exclusivos aos pares, 


PrjU Aj=D PA) 


Denominamos Pr(4) a probabilidade do evento 4. Aqui observamos que o axioma 2 é um requisito de 
normalização: na realidade, não há nada de fundamental em escolher 1 como a probabilidade do evento certo, exceto o 
fato de ser natural e conveniente. 

Diversos resultados decorrem imediatamente desses axiomas e da teoria básica dos conjuntos (veja a Seção B.1). 
O evento nulo tem probabilidade Pr(/0; = 0. Se 4 € B, então Pr(4) < PríB). Usando 4 para denotar o evento S — 4 
(o complemento de 4), temos Pr £44 = 1 — Pr(A4). Para dois eventos quaisquer 4 e B, 


Pr(AUB) = Pr(A] + Pr(B)- Pr(A NB) (C.12) 
< Pr(A] + PrlB). (C.13) 


Em nosso exemplo do lançamento de moedas, suponha que cada um dos quatro eventos elementares tenha 
probabilidade 1/4. Então, a probabilidade de obter no mínimo uma cara é 


Pr(HH, HT, TH) = Pr(HH) + PriHr) + PrirH) 
= 3/4. 


Alternativamente, visto que a probabilidade de obter estritamente menos de uma cara é Prtrr) = 1/4, a 
probabilidade de obter no mínimo uma cara é 1 — 1/4 = 3/4. 


Distribuições de probabilidades discretas 


Uma distribuição de probabilidades é discreta se é definida em um espaço amostral finito ou infinito contável. Seja 
S o espaço amostral. Então, para qualquer evento 4, 


PrLA)= > Prfs), 


já que eventos elementares, especificamente aqueles em 4, são mutuamente exclusivos. Se S é finito e todo evento 
elementar s E S tem probabilidade Pr(s) = 1/8], 


Prls) = 1/|S 


2 


então temos a distribuição de probabilidades uniforme em S. Em tal caso, o experimento é frequentemente descrito 
como “escolher um elemento de S aleatoriamente”. 

Como exemplo, considere o processo de lançar uma moeda não viciada, uma moeda para a qual a probabilidade 
de obter uma cara é igual à probabilidade de obter uma coroa, ou seja, 1/2. Se lançarmos a moeda n vezes, temos a 
distribuição de probabilidades uniforme definida no espaço amostral S = fm, r),, um conjunto de tamanho 2 . Podemos 
representar cada evento elementar em S como uma cadeia de comprimento n em (H, Tt, sendo que cada cadeia 
ocorre coma probabilidade 1/2,. O evento 


A = focorrem exatamente k caras e exatamente n — k coroas) 


é um subconjunto de .S de tamanho |A|= (,4), já que (,4) cadeias de comprimento n em fu, rj contêm exatamente k nºs. 
Portanto, a probabilidade do evento 4 é Pr(4) = (1)/2,. 


Distribuição de probabilidade uniforme contínua 


A distribuição de probabilidade uniforme contínua é um exemplo de distribuição de probabilidade na qual nem 
todos os subconjuntos do espaço amostral são considerados eventos. A distribuição de probabilidade uniforme contínua 
é definida em um intervalo fechado [a, b] dos números reais, onde a < b. Nossa intuição é que cada ponto no intervalo 
la, b] deve ser “igualmente provável”. Porém, há um número incontável de pontos; portanto, se dermos a todos os 
pontos a mesma probabilidade finita, positiva, não poderemos satisfazer simultaneamente os axiomas 2 e 3. Por essa 
razão, gostaríamos de associar uma probabilidade a somente alguns dos subconjuntos de S, de modo tal que os 
axiomas sejam satisfeitos para esses eventos. 

Para qualquer intervalo fechado [c, d], onde a c d b, a distribuição de probabilidade uniforme contínua 
define a probabilidade do evento [c, d] como 

d—c 


Pricldj=——, 
b—a 
Observe que, para qualquer ponto x = [x, x] a probabilidade de x é 0. Se eliminarmos as extremidades de um 
intervalo [c, d], obteremos o intervalo aberto (c, d). Visto que [c, dl=[c,c] U (c, d) U [d, d], o axioma 3 nos dá 
Prílc, dl]; = Prí(c, d)). Em geral, o conjunto de eventos para a distribuição de probabilidade uniforme contínua contém 
qualquer subconjunto do espaço amostral [a, b] que possa ser obtido por uma união finita ou contável de intervalos 
abertos e fechados, bem como certos conjuntos mais complicados. 


Probabilidade condicional e independência 


Às vezes, temos algum conhecimento parcial antecipado sobre o resultado de um experimento. Por exemplo, 
suponha que um amigo tenha lançado duas moedas não viciadas e lhe tenha dito que no mínimo uma das moedas deu 
cara. Qual é a probabilidade de ambas as moedas darem caras? A informação dada elimina a possibilidade de duas 
coroas. Os três eventos elementares restantes são igualmente prováveis, portanto inferimos que cada um ocorre com 
probabilidade 1/3. Visto que apenas um desses eventos elementares dá duas caras, a resposta à nossa pergunta é 1/3. 

A probabilidade condicional formaliza a noção de existir um conhecimento parcial antecipado do resultado de um 
experimento. A probabilidade condicional de um evento 4 dada a ocorrência de um outro evento B é definida como 


Pr(ANB) 


Pr(AIB|= 
Pr(B) (C.14) 


sempre que Pr(B) + 0. (Lê-se “Prt4 | BJ” como “a probabilidade de 4 dado B”.) Intuitivamente, já que sabemos que 
o evento B ocorre, a probabilidade de o evento 4 também ocorrer é 4 N B. Isto é, 4 N B é o conjunto de resultados 
em que ocorrem ambos, 4 e B. Visto que o resultado é um dos eventos elementares em B, normalizamos as 
probabilidades de todos os eventos elementares em B dividindo-as por PrfB), de tal forma que sua soma seja 1. 
Portanto, a probabilidade condicional de 4 dado B é a razão entre a probabilidade do evento 4 N Be a probabilidade 
do evento B. Em nosso exemplo, 4 é o evento em que ambas as moedas dão caras e B é o evento em que no mínimo 
uma moeda dá cara. Assim, Pr(A|B! = (1/4)/(3/4) = 1/3. 
Dois eventos são independentes se 


Pr(AN B) = Pr(AJPr(B), (C.15) 
que é equivalente, se PríB! £ 0, à condição 


Pr(AIB) = Pr(A) 


Por exemplo, suponha que lancemos duas moedas não viciadas e que os resultados sejam independentes. Então, a 
probabilidade de duas caras é (1/2)(1/2) = 1/4. Agora, suponha que um evento seja a primeira moeda dar cara e o 
outro evento seja as moedas darem resultados diferentes. Cada um desses eventos ocorre com probabilidade 1/2, e a 
probabilidade de que ambos os eventos ocorram é 1/4; assim, de acordo com a definição de independência, os eventos 
são independentes — ainda que possamos imaginar que ambos os eventos dependem da primeira moeda. Finalmente, 
suponha que as moedas estejam soldadas de tal forma que ambas dão cara ou ambas dão coroa e que as duas 
possibilidades sejam igualmente prováveis. Então, a probabilidade de cada moeda dar cara é 1/2, mas a probabilidade 
de ambas darem cara é 1/2 + (1/2)(1/2). Por consequência, o evento em que uma das moedas dá cara e o evento em 
que a outra dá cara não são independentes. 

Dizemos que uma coleção 4,, 4,, ..., 4, de eventos é independente aos pares se 


PrA,N AJ =PHAJPrA) 
para todo | <i<;j <n. Dizemos que os eventos da coleção são (mutuamente) independentes se todo subconjunto 
de k elementos da coleção 4,1, 4,2,... A,emque2<k<nel<ij<i<..<i,<n, satisfaz 


PA, NA,N-NA)=PrA Pra) PrA,) 
1 ip ik q ip ik 

Por exemplo, suponha que lancemos duas moedas não viciadas. Seja 4, o evento em que a primeira moeda dá 
cara, seja 4, o evento em que a segunda moeda dá cara e seja 4, o evento em que as duas moedas dão resultados 
diferentes. Temos 


PrlA|) = 1/2, 

PrlA,) = 1/2, 

PrlA) = 1/2, 

PrA,NA) = 1/4, 

PrA,NA) = 1/4, 

PrA,N A) = 1/4, 
PrA, NANA) =0. 


Visto que, para | <i<j <3, temos Prt4,N 4, = PA; PriA,) = 1/4, os eventos 4,, 4,e 4, são independentes 
aos pares. Contudo, os eventos não são mutuamente independentes porque Pr(4, NA, NA) = 0 e 
Pr(A,!PriA,) Pri4,) = 1/8 £0. 


Teorema de Bayes 


Pela definição de probabilidade condicional (C.14) e da lei comutativa 4 NB=BN A, decorre que, para dois 
eventos 4 e B, cada um com probabilidade não nula, 


Pr(A NB) = Pr(BJPr(A|B) (C.16) 
= Pr(A)Pr(BIA) 


Resolvendo para Pr(4|B!, obtemos 


BJPr(BI A) 


Pr(41 Bj = Ei ii (C.17) 


que é conhecido teorema de Bayes. O denominador Pr(B! é uma constante de normalização que podemos expressar 
novamente da seguinte maneira. Considerando que B=(BNA4) U(BNA)eque BNACeBNA são eventos 
mutuamente exclusivos, 


Pr(B) = Pr(BN AJ+ PrBN A) 
— Pr(A) Pr(B | A) 4 Pr(A) Pr(B|A) . 


Substituindo na equação (C.17), obtemos uma forma equivalente do teorema de Bayes: 


Pr(AIB)= Pr(A) Pr(B1 4) 


= = - (C.18) 
Pr(A) Pr(B | A] + Pr(A) Pr(B | 4) 


O teorema de Bayes pode simplificar o cálculo de probabilidades condicionais. Por exemplo, suponha que 
tenhamos uma moeda não viciada e uma moeda viciada que sempre dá cara. Executamos um experimento que consiste 
em três eventos independentes: escolhemos uma das duas moedas aleatoriamente, lançamos essa moeda uma vez e 
depois a lançamos mais uma vez. Suponha que a moeda escolhida dê cara ambas as vezes. Qual é a probabilidade de 
ela ser viciada? 

Resolvemos esse problema usando o teorema de Bayes. Seja 4 o evento em que escolhemos a moeda viciada e 
seja B o evento em que a moeda dá cara ambas as vezes. Desejamos determinar Pr(A|B). Temos PrtA; = 1/2, 
PríBiA) = 1, Prt4) = 1/2. e PríBIA) = 1/4; consequentemente, 


(1/2)-1 


(1/291+(1/2)(1/4) 
=A/o 


PrAIB|= 


Exercícios 


C.2-1 O professor Rosencrantz lança uma moeda não viciada uma vez. O professor Guildenstern lança uma moeda 
não viciada duas vezes. Qual é a probabilidade de o professor Rosencrantz obter mais caras que o professor 
Guildenstern? 


€.2-2 Prove a desigualdade de Boole: para qualquer sequência finta ou mfinta contável de eventos 4,, 4,, ..., 
PrlA UA,U...)<Pr(A) + PrlAj+.... (C.19) 


C€.2-3 Suponha que embaralhemos muito bem um baralho de 10 cartas e que cada uma das cartas represente um 
número distinto de 1 até 10. Então, retiramos três cartas do baralho, uma de cada vez. Qual é a probabilidade 
de selecionarmos as três cartas em sequência ordenada (crescente)? 


C€.2-4 Prove que 


Pr(A|B) + Pr(A|B) = 1. 
€.2-5 Prove que, para qualquer coleção de eventos 4,, 4,,...,4,, 


PIA, NA,N...nA)=Pr(A)- PrA, A) - Prl4, | A NA)... 
=PHAANA,N..NA, j. 


C.2-6 * Descreva um procedimento que toma como entrada dois inteiros a e b tais que O < a < b e, usando 
lançamentos de uma moeda não viciada, produz como resultado caras com probabilidade a/b e coroas com 
probabilidade (b - a)/b. Dê um limite para o número esperado de lançamentos da moeda que deve ser O(1). 


(Sugestão: Represente a/b em binário.) 


C€.2-7 Mostre como construir um conjunto de n eventos independentes aos pares mas tais que nenhum subconjunto 
de k > 2 elementos desse conjunto seja mutuamente independente. 


C.2-8 * Dois eventos 4 e B são condicionalmente independentes, dado C, se 


Dê um exemplo simples mas não trivial de dois eventos que não sejam independentes, mas condicionalmente 
independentes dado um terceiro evento. 


C.2-9 % Você participa de um programa no qual um prêmio está escondido atrás de uma de três cortinas. Você 
ganhará o prêmio se selecionar a cortina correta. Depois de escolher uma cortina, mas antes de a cortina ser 
erguida, o apresentador ergue uma das outras cortinas, sabendo de antemão que isso revelará um cenário 
vazio e pergunta se você gostaria de trocar sua seleção atual pela cortina restante. De que modo suas chances 
mudarão se você trocar a seleção? (Essa pergunta é o famoso problema de Monty Hall, que deve seu nome 
ao apresentador do programa de prêmios que frequentemente propunha aos participantes exatamente esse 
dilema.) 


C.2-10 ** O diretor de um presídio escolheu aleatoriamente um de três prisioneiros para ser Iibertado. Os outros dois 
serão executados. O carcereiro sabe qual deles será libertado, mas é proibido de dar a qualquer prisioneiro 
informações relativas a seu status. Vamos denominar os prisioneiros X, Ye Z. O prisioneiro X pergunta 
reservadamente ao carcereiro qual dos outros prisioneiros, Y ou Z, será executado argumentando que, visto 
que ele já sabe que no mínimo um deles deve morrer, o carcereiro não estará revelando quaisquer informações 
sobre o seu próprio status. O carcereiro diz a X que Y deverá ser executado. O prisioneiro X se sente mais 
feliz agora, já que chegou à conclusão de que ele ou o prisioneiro Z será libertado, o que significa que agora 
sua probabilidade de ganhar a liberdade é 1/2. Ele está certo ou sua chance de viver ainda é de 1/37 Explique. 


C.3 VARIÁVEIS ALEATÓRIAS DISCRETAS 


Uma variável aleatória (discreta) X é uma função de um espaço amostral finito ou infinito contável S para os 
números reais. Ela associa um número real a cada resultado possível de um experimento, o que nos permite trabalhar 
com a distribuição de probabilidades induzida no conjunto de números resultante. Variáveis aleatórias também podem 
ser definidas para espaços amostrais infinitos incontáveis, mas isso dá origem a questões técnicas que não há 
necessidade de abordar, dadas as nossas finalidades. Daqui em diante, suporemos que variáveis aleatórias são 
discretas. 

Para uma variável aleatória X e um número real x, definimos o evento X=x como fs E S:X(s) = x): portanto, 


PriX=x)= >, Pris) 
sES:X(s)=* 
A função 
f(x) = PriX =) 
é a função densidade de probabilidade da variável aleatória X. Pelos axiomas de probabilidade, Pr$X = x! > 0 e 


DaPrtx=]=1. 

Como exemplo, considere o experimento de lançar um par de dados comuns de seis faces. Há 36 eventos 
elementares possíveis no espaço amostral. Supomos que a distribuição de probabilidades é uniforme, de modo que 
cada evento elementar s E S é igualmente provável: Pr(s: = 1/36. Defina a variável aleatória X como o máximo dos 


dois valores resultantes do lançamento dos dados. Temos PrtX = 31 = 5/36, já que X atribui um valor de 3 a 5 dos 36 
eventos elementares possíveis, isto é, (1, 3), (2, 3), (3, 3), (3,29) e (3, 1). 

Muttas vezes, definimos várias variáveis aleatórias no mesmo espaço amostral Se X e Y são variáveis aleatórias, a 
função 


Hxy=PrlilX=xeY=y) 
é a função densidade de probabilidade conjunta de X e Y. Para um valor fixo y, 


PryY=y=> PlX=xeY=y), 


e, de modo semelhante, para um valor fixo x, 


RiX=a=+ Bi=ger=y) 


Usando a definição (C.14) de probabilidade condicional, temos 


PriX=2|Y=y= RT A 


Dizemos que duas variáveis aleatórias Xe Y são independentes se, para todo x e y, os eventos X =x e Y= y são 
independentes ou, de modo equivalente, se para todo x e y, temos PrfX =x e Y=y) = PriX=x)Pr(Y=». 

Dado um conjunto de variáveis aleatórias definidas em um mesmo espaço amostral, podemos definir novas 
variáveis aleatórias como somas, produtos ou outras finções das variáveis originais. 


Valor esperado de uma variável aleatória 


O resumo mais simples e mais útil da distribuição de uma variável aleatória é a “média” dos valores que ela adota. 
O valor esperado (ou os sinônimos esperança ou média) de uma variável aleatória discreta X é 


Eis) 4PdiX=a), (C.20) 


que é bem definido se a soma é finita ou absolutamente convergente. Às vezes, a esperança de X é denotada por mx ou, 
quando a variável aleatória é aparente pelo contexto, simplesmente por m. 

Considere um jogo em que você lança duas moedas não viciadas. Você ganha R$3,00 para cada cara, mas perde 
R$2,00 para cada coroa. O valor esperado da variável aleatória X que representa seus ganhos é 


EIX] = 6-Pr2H's) +1-PHH,1T) — 4. Pr(2 T's) 
= 6(1/4) +1(1/2)-4(1/4) 
o 


A esperança da soma de duas variáveis aleatórias é a soma de suas esperanças, Isto é, 
E[X + Y] = E[X] + E[Y), (C.21) 


sempre que E[X] e E[Y] são definidos. Denominamos essa propriedade linearidade da esperança, e ela é válida até 
mesmo se X e Y não são independentes. Ela também se estende a somatórios de esperanças, tanto finitos quanto 
absolutamente convergentes. A linearidade de esperança é a propriedade fundamental que nos permite executar análises 
probabilísticas utilizando variáveis aleatórias indicadoras (consulte a Seção 5.2). 

Se X é qualquer variável aleatória, qualquer função g(x) define uma nova variável aleatória g(X). Se a esperança de 
g(X) é definida, então 


Elg00]=,809-PrtX = 2) 


Fazendo g(x) = ax temos, para qualquer constante a, 
E[aX] = aE[X]. (C.22) 


Consequentemente, esperanças são lineares: para quaisquer duas variáveis aleatórias X e Y e uma constante 
qualquer a, 


ElaX + Y] = aE[X] + ED]. (C.23) 


Quando duas variáveis aleatórias X e Y são independentes e cada uma tem uma esperança definida, 


A aan X=26T=y) 


x 


Dat = Pe =) 
AS. x-Pr(X iam -PrfY =4)) 


= ELXJE[Y] 
Em geral, quando n variáveis aleatórias X,, X,,...,X, são mutuamente independentes, 
EIX, X, :- X,] = EIX) EIX)] --- EIX]. (C.24) 
Quando uma variável aleatória X assume valores pertencentes ao conjunto dos números naturais = (0,1,2,...), 


existe uma fórmula elegante para representar sua esperança: 


EXI=5 i-PrtX =) 


i=0 


=3 i(PHX>i)-PHX D+) 


1=0 


(C.25) 


=> PrX>i), 
i=0 
visto que cada termo Pr£X > it é somado i vezes e subtraído em i — 1 vezes (exceto PrtX > 03, que é somado O vezes 
e não é subtraído). 
Quando aplicamos uma função convexa f(x) a uma variável aleatória X, a desigualdade de Jensen nos dá 


EO] > HEIX) , (C.26) 


desde que as esperanças existam e sejam finitas. (Uma função f(x) é convexa se para todo x e y, e para todo O</<1, 


temos fl + -Dy)<Iifo)+(A-DAO)) 


Variância e desvio-padrão 


O valor esperado de uma variável aleatória não nos informa como os valores da variável estão “espalhados”. Por 
exemplo, se temos variáveis aleatórias X e Y para as quais PriX = 1/4! =PrtX=34) = 12 ePr(Y=0!=PrfY=1) 
= 1/2, então tanto E(X) quanto EfY) são 1/2, ainda que os valores reais adotados por Y estejam mais distantes da 
média que os valores reais adotados por X. 

A noção de variância expressa matematicamente quão afastados da média os valores de uma variável aleatória 
provavelmente estão. A variância de uma variável aleatória X com média E[X] é 


Var[X] = EI(X — E[X]7] 
= E[X2-2XE[X] + EAX]] 
= E[X)-2E[XEJX) + EX] 
= EX] -2E4X] + FAX] 
= ED) - FAX. (C.27) 


Para justificar a igualdade E[E2[X = E2[X], observe que, como E[X] é um número real e não uma variável 
aleatória, F[E2[X | também é um número real. A igualdade E[XE[X || = E2[X] decorre da equação (C€.22), coma = 
ELX)). Reescrevendo a equação (C.27) obtemos uma expressão para a esperança do quadrado de uma variável 


aleatória: 


ED] = Var[X] + EAX]. (C.28) 


A variância de uma variável aleatória X e a variância de aX estão relacionadas (veja o Exercício C.3-10): 


Var[aX] = aºVar[X]. 


Quando X e Y são variáveis aleatórias independentes, 


Var[X + Y] = Var[X] + Var[Y]. 


Em geral, se n variáveis aleatórias X,, X,, ..., X, são independentes aos pares, então 


Var e 
i=1 


=35Varlx) (C.29) 


O desvio-padrão de uma variável aleatória X é a raiz quadrada positiva da variância de X. O desvio-padrão de 
uma variável aleatória X, às vezes, é denotado por x, ou simplesmente , quando a variável aleatória X é entendida pelo 
contexto. Com essa notação, a variância de X é denotada por 2. 


Exercícios 

C.3-1 Suponha que lancemos dois dados comuns de seis faces. Qual é a esperança da soma dos dois valores 
exibidos resultantes? Qual é a esperança do máximo dos dois valores resultantes”? 

C.3-2 Um arranjo A[1..n] contém n números distintos que estão ordenados aleatoriamente, sendo que cada 
permutação dos n números é igualmente provável. Qual é a esperança do índice do elemento máximo no 
arranjo? Qual é a esperança do índice do elemento mínimo no arranjo? 

C.3-3 Um certo jogo de parque de diversões consiste em três dados dentro de uma gaiola giratória. Um jogador 
pode apostar R$1,00 em qualquer dos números de 1 a 6. A gaiola é girada e o resultado é o seguinte: se o 
número escolhido pelo jogador não aparecer em nenhum dos dados, ele perde seu dinheiro. Caso contrário, 
se seu número aparecer em exatamente k dos três dados, para k = 1, 2, 3, o jogador mantém seu dinheiro e 
ganha k vezes o valor apostado. Qual é o ganho esperado quando se aposta nesse jogo uma vez? 

C.3-4 Demonstre que, se Xe Y são variáveis aleatórias não negativas, então 

Elmax(X, Y)] < E[X] + E[Y1. 
C.3-5 * Sejam Xe Y variáveis aleatórias independentes. Prove que f(X) e g(Y) são independentes para qualquer 


escolha de funções fe g. 


C.3-6 * Seja X uma variável aleatória não negativa e suponha que E[X] esteja bem definida. Prove a desigualdade 
de Markov: 


Pr(X > t) < E[X]/t (C.30) 
para todo t > 0. 


C.3-7 * Seja S um espaço amostral e sejam X e X' variáveis aleatórias tais que X(s) > X(s) para todo s E S. 
Prove que, para qualquer constante real £, 


PriX>t> Pr[X' > t] 
C.3-8 O que é maior: a expectativa do quadrado de uma variável aleatória ou o quadrado de sua esperança? 


C€.3-9 Mostre que, para qualquer variável aleatória X que adote somente os valores O e 1, temos Var[X] = ELXJ]E[I 
Ed) 
€.3-10 Prove que Var[aX] = a,Var[X], pela definição (C.27) de variância. 


C.4 DisrriBUIÇÕES GEOMÉTRICA E BINOMIAL 


Podemos pensar em um lançamento de moeda como uma instância de uma tentativa de Bernoulli, que é um 
experimento que tem somente dois resultados possíveis: sucesso, que ocorre com probabilidade p, e insucesso, que 
ocorre com probabilidade q = 1 — p. Quando falamos coletivamente de tentativas de Bernoulli, queremos dizer que 
as tentativas são mutuamente independentes e, a menos que digamos especificamente o contrário, cada uma delas tem a 
mesma probabilidade p de sucesso. Duas distribuições importantes surgem das tentativas de Bernoull: a distribuição 
geométrica e a distribuição binomial. 


A distribuição geométrica 

Suponha que tenhamos uma sequência de tentativas de Bernoulk, cada uma com uma probabilidade de sucesso p e 
uma probabilidade q = 1 — p de insucesso. Quantas tentativas ocorrem antes de obtermos um sucesso? Vamos definir a 
variável aleatória X como o número de tentativas necessárias para obter um sucesso. Então, X tem valores no intervalo 
11,2 «pepaatol, 

Pr(X = k)= q"! p, (C.31) 

já que temos k — 1 insucessos antes de um sucesso. Dizemos que uma distribuição de probabilidades que satisfaz a 
equação (C.31) é uma distribuição geométrica. A Figura C.1 ilustra tal distribuição. 

Considerando que p < 1, podemos calcular a esperança de uma distribuição geométrica utilizando a identidade 
(A.8): 


ELXI= Dotgop 
k=1 


=ES kf 


q k=0 

A 

q (1-9) 
E 

q Pp 


=1/p (C.32) 
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Figura C.1 Uma distribuição geométrica com probabilidade de sucesso p = 1/3 e uma probabilidade de insucesso q = 1 — p. A esperança 
da distribuição é 1/p =3. 


Assim, em média, ocorrem 1/p tentativas antes de obtermos um sucesso, um resultado intuitivo. A variância, que 
pode ser calculada de modo semelhante, mas usando o Exercício A.1-3, é 


Var[X] = q/p”. (C.33) 


Como exemplo, suponha que lancemos dois dados repetidas vezes até obtermos um sete ou um onze. Dos 36 
resultados possíveis, seis produzem um sete e dois produzem um onze. Assim, a probabilidade de sucesso é p = 8/36 = 
2/9, e temos de lançar os dados 1/p = 9/2 = 4,5 vezes em média para obter um valor sete ou onze. 


A distribuição binomial 


Quantos sucessos ocorrem durante n tentativas de Bernoull, onde um sucesso ocorre com probabilidade p e um 
insucesso com probabilidade q = 1 — p? Defina a variável aleatória X como o número de sucessos em n tentativas. 
Então, X tem valores na faixa (0, 1,..., ni e,parak = 0,1.,...,n, 


PriX=k=|,| ps, (C.34) 


n 
k 


visto que há (,) modos de escolher quais k das n tentativas são sucessos, e a probabilidade de ocorrer cada uma é 
p;q,*. Uma distribuição de probabilidades que satisfaz a equação (C.33) é denominada distribuição binomial. Por 
conveniência, definimos a família de distribuições binomiais usando a notação 


n 


b(k; n, p) = j P(A — py. (C.35) 


A Figura C.2 ilustra uma distribuição binomial. O nome “binomial” deve-se ao fato de que o lado direito da 
equação (C.34) é o k-ésimo termo da expansão de (p + q),. Consequentemente, visto que p +g=1, 


>(k; np)-1, (C.36) 


k=0 


como é exigido pelo axioma 2 dos axiomas de probabilidade. 
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Figura C.2 A distribuição binomial de b(k; 15, 1/3) resultante de n = 15 tentativas de Bemoulli, cada uma com probabilidade de sucesso 
p = 1/3. A expectativa da distribuição é np =5. 


Podemos calcular a esperança de uma variável aleatória cuja distribuição é binomial pelas equações (C.8) e 
(C.36). Seja X uma variável aleatória que segue a distribuição binomial b(k; n, p), e seja q = 1 — p. Pela definição de 
esperança, temos 


EX]=5Dk-PHX =) 


k=0 


Es k-b(k;n,p) 


k=0 


M (A ; 
E k 3 n—k 
õ. [| q 
- no poqr* (pela equação (C.8)) 


1—1 e 
iz Ph À | pl q D+ 


e np> blk;n—1,p) 
k=0 


=np (pela equação (C.36)) (C.37) 


Usando a linearidade de esperança podemos obter o mesmo resultado com uma quantidade substancialmente 
menor de cálculos algébricos. Seja X, a variável aleatória que descreve o número de sucessos na i-ésima tentativa. 
Então, ELX]=p :- 1+q: 0=pe, por linearidade de esperança (equação (C.21)), o número esperado de sucessos 
para n tentativas é 


EuI=EpOX 


t=1 


=np (C.38) 


Podemos usar a mesma abordagem para calcular a variância da distribuição. Empregando 
a equação (C.27), temos Var[X] — E[Xº] — E*[X]. Visto que X, adota somente os valores 0 e 1, 


temos Xº = X., o que implica E [Xº | =E IX, | = p. Consequentemente, 
VarlX]=p-p=p(1-p)=q. (C.39) 
Para calcular a variância de X, aproveitamos a independência das n tentativas; assim, pela equação (C.29), 
5 x, 
i=1 l 
= 5 Var[X,] 
i=1 
=5"m 
i=1 


=npq. 


Var[X] = Var 


(C.40) 


Como mostra a Figura C.2, a distribuição binomial b(k; n, p) aumenta com k até alcançar a média np e depois 
diminui. Podemos provar que a distribuição sempre se comporta dessa maneira examinando a razão entre termos 


consecutivos: 


blk;n,p) (paro 
b(k—1;n,p) rs 
o nk=Di(n=k+D!p 


kí(n—k)!n!g 
AJn-k+Dp 
kq 
= qu M+Dp—k 
kq 


(C.41) 


Essa razão é maior que 1 exatamente quando (n + 1)p — k é positiva. Consequentemente, h(k; n, p) > b(k — 1; n, 
p) para k < (n + Dp (a distribuição aumenta) e b(k; n, p) < b(k — 1; nn, p) para k > (n + Dp (a distribuição diminui). Se 
k = (n + Dp é um inteiro, então b(k; n, p) = b(k — 1; nn, p), e portanto a distribuição tem dois máximos: em k = (n + Dp 
cemk-l=(n+lDp-1=np-q. Caso contrário, ela atinge um máximo no único inteiro k que se encontra na faixa 


np-q<k<(n+ Dp. 
O lema a seguir dá um limite superior para a distribuição binomial. 


Lema C.1 
Sejan>0,seja0<p<l,sejag=1I-peseja)O<k<n. Então, 
k n-k 
np nq 
Rm 


b(k;n,p)< 
k 


Prova Usando a equação (C.6), temos 


Hno)= [e] pi 
n 


k 
k n—k 
n k n-k 
=== Dm 
k = 


k n—k 
alle 
k ) In—k 
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Exercícios 


C.4-1 Verifique o axioma 2 dos axiomas da probabilidade para a distribuição geométrica. 


C.4-2 Quantas vezes em média devemos lançar seis moedas não viciadas antes de obtermos três caras e três 


coroas? 


C.4-3 Mostre que b(k;n,p)=b(n—k:n,q), ondeg=1 —p. 


C.4-4 


C.4-5 


C.4-6 


C.4-7 


C.4-8 


C.4-9 


C.5 


Mostre que o valor do máximo da distribuição binomial b(k; n, p) é aproximadamente 1/N2npq, onde q = 1 — 
p. 


* Mostre que a probabilidade de nenhum sucesso em n tentativas de Bernoull; cada uma com probabilidade 
p = ln, é aproximadamente 1/e. Mostre que a probabilidade de exatamente um sucesso é também 
aproximadamente 1/e. 


* O professor Rosencrantz lança uma moeda não viciada n vezes, e o professor Guildenstern faz o mesmo. 


2n 
Mostre que a probabilidade de eles obterem o mesmo número de caras é n/ | 4n. (Sugestão: Para o 
professor Rosencrantz, considere uma cara um sucesso; para o professor Guildenstern, considere uma coroa 
um sucesso.) Use sua demonstração para verificar a identidade 


2 


NY” “2 


«>o | K n 


Mostre que, para O < k <n, 
b(k; n, 1/2) “ 2n H(k/n)-n l 
onde H(x) é a função entropia (C.7). 


Considere n tentativas de Bernoulli onde, para i = 1,2, ..., n, a i-ésima tentativa tem uma probabilidade p, de 
sucesso, e seja X a variável aleatória que denota o número total de sucessos. Seja p > p; para todo i = 1,2, 
..,n. Prove que, para | <k <n, 


K= 
PriX <k) >> 4 (1;n1,p) 


* Seja X a variável aleatória para o número total de sucessos em um conjunto 4 de n tentativas de Bernoullhi, 
onde a i-ésima tentativa tem uma probabilidade p, de sucesso e seja X” a variável aleatória para o número total 
de sucessos em um segundo conjunto 4” de n tentativas de Bernoulh, onde a i-ésima tentativa tem uma 
probabilidade de sucesso p'i> p,. Prove que, para O<k <n, 


PriX'>kj>Pr(X>k). 


(Sugestão: Mostre como obter as tentativas de Bernoulli em 4º por meio de um experimento envolvendo as 
tentativas de 4 e use o resultado do Exercício C.3-7.) 


ÀS CAUDAS DA DISTRIBUIÇÃO BINOMIAL 


A probabilidade de haver no mínimo ou no máximo k sucessos em n tentativas de Bernoull, cada um com 
probabilidade de sucesso p, é frequentemente de maior interesse do que a probabilidade de haver exatamente k 
sucessos. Nesta seção, investigamos as caudas da distribuição binomial: as duas regiões da distribuição b(k; n, p) que 
estão longe do np médio. Demonstraremos vários limites importantes para (a soma de todos os termos de) uma cauda. 


Primeiro, damos um limite para a cauda direita da distribuição b(k; n, p). Podemos determinar limites para a cauda 
esquerda invertendo os papéis de sucessos € insucessos. 


Teorema C.2 


Considere uma sequência de n tentativas de Bernoull, onde o sucesso ocorre com probabilidade p. Seja X a variável 
aleatória que denota o número total de sucessos. Então, para O <k <n, a probabilidade de no mínimo k sucessos é 


PriX > kj= =3Dbtisn,p) 


Prova Para S € (1,2,..., n), seja As o evento em que a i-ésima tentativa é um sucesso para todo i E S. É claro que 
PriAç) = ps se |S| = k. Temos 


PA > X) = Prledste SC iLZ an: IS|=keA,) 


e Pr U A | 
SELL2, on: ISl=k 


PriA,) (pela desigualdade (C.19)) 


SEL 2 en ISI=k 


IA 


N| | 
a a 


O corolário a seguir enuncia novamente o teorema para a cauda esquerda da distribuição binomial. Em geral, 
deixaremos a cargo do leitor adaptar as prova de uma cauda à outra. 


Corolário C.3 


Considere uma sequência de n tentativas de Bernoulli nas quais o sucesso ocorre com probabilidade p. Se X é a 
variável aleatória que denota o número total de sucessos, então para O k n, a probabilidade de no máximo k sucessos 
é 


Pr(X<k) = hã n,p) 


i=0 


n 
< Tas n—k 
SP) 


n n—k 
=" I-njt. 
; (1—p) 


Nosso próximo limite refere-se à cauda esquerda da distribuição binomial. Seu corolário mostra que, longe da 
média, a cauda esquerda dimmui exponencialmente. 


Teorema C.4 


Considere uma sequência de n tentativas de Bernoulli na qual o sucesso ocorre com probabilidade p e o insucesso com 
probabilidade q = 1 - p. Seja X a variável aleatória que denota o número total de sucessos. Então, para O <k <np, a 
probabilidade de ocorrer um número menor do que k sucessos é 


Pr(X <k) ED 


<H mkesn,p) 
np —k 


a: e e UI sa Eu die Pr . 
Prova Limitamos a série di b(i;n,p) por uma série geométrica utilizando a técnica da Seção 


A.2. Para à = 1,2,...,k temos, pela equação (C.41) 


b(i—1;n,p) + iq 
b(i;n,p) - (n-i+Dp 
e 
(n—)p 
Mo 
(n—k)p 
Se fizermos 
MM 
(n—k)p 
cg 
(n—np)p 
= dq 
nqp 
La 
np 
cs 
decorre que 


b(i—-1:n,p)< xb(i;n,p) 
para O<i<k. Aplicando iterativamente essa igualdade k — i vezes, obtemos 
b(i; n,p) < x b(k;n, p) 


para 0<i<k e, consequentemente, 


k- k 
>ob(in,p)<> xb(k;n,p) 
i=0 i=0 


a blk;n,pjS Dx 


i=0 


= b(k;n,p) 
1l-x 


7) 
np —k 


Corolário C.5 

Considere uma sequência de n tentativas de Bernoulhi na qual o sucesso ocorra com probabilidade p e o insucesso 
com probabilidade q = 1 — p. Então, para O <k < np/2, a probabilidade de um número de sucessos menor do que k é 
menor que metade da probabilidade de um número de sucessos menor do que k + 1. 


Prova Como k < np/2, temos 


kh. (Wp/Dg 
np-k np-(np/2) 
(np /2)q 
np/2 
mé (C.42) 


já que q < 1. Sendo X a variável aleatória que denota o número de sucessos, o Teorema C.4 e a desigualdade (C.42) 
implicam que a probabilidade de um número de sucessos menor do que k é 


k—1 

PriX<k|=5 b(i;n,p)< b(k;n,p) 
i=0 

Assim, temos 
PAX <k+1) SD blizn,p) 
Dio blizn,p)+ blk;n,p) 
CIPEs 
desde 3. b(i;n; p)<b(k;n,p) 


Os limites para a cauda direita decorrem de modo semelhante. Você deve dar a prova no Exercício C.5-2. 


Corolário C.6 


Considere uma sequência de n tentativas de Bernoulli, na qual o sucesso ocorre com probabilidade p. Seja X a variável 
aleatória que denota o número total de sucessos. Então, para np <k <n, a probabilidade de um número de sucessos 
maior do que k é 


Pr(X >k) = E» b(i;n,p) 


i=k+1 
k—np 


Corolário C.7 


Considere uma sequência de n tentativas de Bernoulli na qual o sucesso ocorra com probabilidade p e o insucesso com 
probabilidade q = 1 — p. Então, para (np + n)/2 <k <n, a probabilidade de um número de sucessos maior do que k é 
menor que metade da probabilidade de um número de sucessos maior do que k - 1. 


O próximo teorema considera n tentativas de Bernoulli cada uma com probabilidade p, de sucesso, para i = 1,2, 
.., n. Como mostra o corolário subsequente, podemos usar o teorema para dar um limite para a cauda direita da 
distribuição binomial definindo p, = p para cada tentativa. 


Teorema C.8 


Considere uma sequência de n tentativas de Bernoulli na qual a i-ésima tentativa, para i = 1, 2, ..., n ocorra sucesso 
com probabilidade p, e o insucesso com probabilidade q, = 1 — p,. Seja X a variável aleatória que descreve o número 
total de sucessos, e seja m= E[LX]. Então para r> m, 


, 
Pr(X-u>n]<|E 
r 
Prova Visto que, para qualquer a > 0, a função eax é estritamente crescente em x, 
Pr(X - q > 1) = Prfe0m > ex), (C.43) 
onde a será determinado mais adiante. Usando a desigualdade de Markov (C.30), obtemos 


Pr(eiX-u) > e”) < E[e“*-"n] e”, (C.44) 


O grosso da prova consiste em limitar E[e (X - m)] e substituir a por um valor adequado na desigualdade (C.44). 
Primeiro, avaliamos E[e (X - m)]. Usando a técnica das variáveis aleatórias indicadoras (veja a Seção 5.2), seja X= Ifa 
i-ésima tentativa de Bernoull é um sucesso! para i = 1,2, ...,n; isto é, X;é a variável aleatória que é 1 se a i-ésima 
tentativa de Bernoulli é um sucesso e O se ela é um insucesso. Assim, 


e, por linearidade de esperança, 


o que implica 


Para avaliar E[eaX-)], substituímos X — m, obtendo 


| 

ps 

a 
9 


Efe “"] 


que decorre de (C.24), já que a independência mútua das variáveis aleatórias X, implica a independência mútua das 
variáveis aleatórias ea(Xi - pi) (veja o Exercício C.3-5). Pela definição de expectativa, 


a(0-p,) 


Efe] = ey +e 
— ne + qe 
pe +1 
exp(p.e”). 
P(p.e) (C.45) 


q; 


IA IA 


onde exp(x) denota a função exponencial: exp(x) = e,. (A desigualdade (C.45) decorre das desigualdades a > 0, q, < 
1, easi < ea, e a última linha decorre da desigualdade (3.12).) Consequentemente, 


Efe] Es HEfeS] 


IA 
— 
D 
x 
& 


= explue ), (C.46) 


visto que 4 = Dump '* Portanto, pela equação (C.43) e desigualdades (C.44) e (C€.46), decorre que 
PiX-u >r]< exp(ue — ar). (C.47) 


Escolhendo a = In(r/m), (veja o Exercício C.5-7), obtemos 


P(fX-u>r] < exp(ue""9 -rIn(r/ 1) 
= exp(r—rIn(r/q)) 


e 


(r/ 
E E | 
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Quando aplicado a tentativas de Bernoulli nas quais cada tentativa tem a mesma probabilidade de sucesso, o 
Teorema C.8 produz o corolário a seguir, que limita a cauda direita de uma distribuição binomial. 


Corolário C.9 


Considere uma sequência de n tentativas de Bernoulli na qual em cada tentativa ocorra sucesso com probabilidade 
p e insucesso com probabilidade q = 1 — p. Então, para r > np, 


n 


PriX-np>r)= 5, b(k;n,p) 
k=jnp+r| 
- [ue] 
; 


Prova Pela equação (C.37), temos m = E[X] = np. 


Exercícios 


C.5-1 ** O que é menos provável: não obter nenhuma cara quando lançamos uma moeda não viciada n vezes ou 
obter menos de n caras quando lançamos uma moeda 4n vezes? 


C€.5-2 * Prove os Corolários C.6 e C.7. 
C.5-3 X Mostre que 
ki 


5 


i=0 


k 
DP b(k;n, 1 
a <(a+1) E (k;n,a /(a + 1) 


[) 
para todo a > O e todo k tal que O <k < na/(a + 1). 
C.5-4 % Proveque, sc0O<k<np,onde0O<p<leg=1-p, então 
k n—k 
k—1 
) É da < kg np ng 
o np—klk) In—k 


C.5-5  * Mostre que as condições do Teorema C.8 implicam que 


C.5-6 


Prp=X =") < 


se), 


r 


De modo semelhante, mostre que as condições do Corolário C.9 implicam que 


Erp-Ã 21]S ii 
r 


* Considere uma sequência de n tentativas de Bernoulli na qual na i-ésima tentativa, para i = 1,2,..., n, 
ocorra sucesso com probabilidade p, e insucesso com probabilidade q,= 1 — p,. Seja X a variável aleatória 
que descreve o número total de sucessos, e seja m = E[X]. Mostre que, para 7 > 0, 


Pr(X— yu a r) <erm 


(Sugestão: Prove que p e” +q.e ” <e””. Depois, siga a estrutura da prova do Teorema 
C.8 usando essa desigualdade em lugar da desigualdade (C.45).) 


C.5-7 & Mostre que escolher a = In(r/m) minimiza o lado direito da desigualdade (C.47). 


Problemas 


C-1 


Bolas e caixas 


Neste problema, mvestigamos o efeito de várias hipóteses sobre o número de modos de colocar n bolas em b 
caixas distintas. 


a. 


Suponha que as n bolas sejam distintas e que sua ordem dentro de uma caixa não tenha importância. 
Demonstre que o número de modos de colocar as bolas nas caixas é bn. 


Suponha que as bolas sejam distintas e que as bolas em cada caixa estejam ordenadas. Demonstre que 
há exatamente (b + n — D!/(b — 1)! modos de colocar as bolas nas caixas. (Sugestão: Considere o 
número de modos de arranjar em linha n bolas distintas e b — 1 bastões indistintos.) 


Suponha que as bolas sejam idênticas e, consequentemente, que sua ordem dentro de uma caixa não 
b+n—1 
tenha importância. Mostre que o número de modos de colocar as bolas nas caixas é É Ê 
(Sugestão: Dos arranjos dados na parte (b), quantos se repetem se as bolas forem idênticas?) 
Suponha que as bolas sejam idênticas e que nenhuma caixa possa conter mais de uma bola, de modo que 
Ro 
n <b. Demonstre que o número de modos de colocar as bolas é 1”. 


Suponha que as bolas sejam idênticas e que nenhuma caixa possa ficar vazia. Considerando que n > b, 


n—1 ] 
mostre que o número de modos de colocar as bolas é b—1 


Noras DO APÊNDICE 


Os primeiros métodos gerais para resolver problemas de probabilidade foram discutidos em uma famosa 
correspondência entre B. Pascal e P. de Fermat, que começou em 1654, e em um livro de C. Huygens em 1657. A 
teoria da probabilidade rigorosa começou com o trabalho de J. Bernoull em 1713 e de A. De Moivre em 1730. 
Desenvolvimentos adicionais da teoria foram propostos por P.-S. Laplace, S.-D. Poissone C. F. Gauss. 

Somas de variáveis aleatórias foram estudadas originalmente por P. L. Chebyshev e A. A. Markov. Os axiomas da 
teoria da probabilidade foram desenvolvidos por A. N. Kolmogorov em 1933. Chernoff [66] e Hoefíding [173] 
determinaram os limites para caudas de distribuições. Um trabalho seminal sobre estruturas combinatórias aleatórias foi 
realizado por P. Erdôs. 

Knuth [209] e Liu [237] são boas referências para análise combinatória elementar e contagem. Livros didáticos 
padrões como os de Billingsley [46], Chung [67], Drake [95], Feller [104] e Rozanov [300] oferecem introduções 
abrangentes à probabilidade. 


1 Quando se trata de uma distribuição de probabilidade geral, podem existir alguns subconjuntos do espaço amostral S que não são 
considerados eventos. Essa situação normalmente surge quando o espaço amostral é infinito não contável. O principal requisito para 
que subconjuntos sejam eventos é que o conjunto de eventos de um espaço amostral seja fechado às operações de tomar o 
complemento de um evento, formar a união de um número de eventos finito ou contável e tomar a interseção de um número de eventos 
finito ou contável. A maioria das distribuições de probabilidades que veremos refere-se a espaços amostrais finitos ou contáveis e, de 
modo geral, consideraremos todos os subconjuntos de um espaço amostral eventos. Uma exceção notável é a distribuição de 
probabilidade uniforme contínua, que veremos embreve. 


MATRIZES 


Matrizes aparecem em numerosas aplicações, incluindo, a ciência da computação, mas não se limitando de modo 
algum a ela. Se você já estudou matrizes, estará familiarizado com grande parte do material apresentado neste apêndice, 
mas outras partes podem ser novas. A Seção D.1 abrange definições e operações básicas com matrizes, e a Seção D.2 
apresenta algumas propriedades básicas de matrizes. 


D.1 Marrizes E OPERAÇÕES COM MATRIZES 


Nesta seção, revisamos alguns conceitos básicos da teoria de matrizes e algumas propriedades fundamentais de 
matrizes. 


Matrizes e vetores 


Uma matriz é um arranjo retangular de números. Por exemplo, 


(D.1) 


é uma matriz 2 x 3 4 =(a;) onde, para i= 1,2 ej =, 2, 3, denotamos o elemento da matriz na Inha i e coluna j por 
a;- Usamos letras maiúsculas para denotar matrizes e índices em letras minúsculas correspondentes às linhas e colunas 
para denotar seus elementos. Denotamos o conjunto de todas as matrizes m x n com entradas de valores reais por mx, 
e, em geral, o conjunto de matrizes m x n com entradas retiradas de um conjunto S por S, x,. 

A transposta de uma matriz 4 é a matriz 4, obtida pela troca das linhas e colunas de 4. Para a matriz 4 da 
equação (D.1), 


> 

Le 
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Um vetor é um arranjo unidimensional de números. Por exemplo, 


é um vetor de tamanho 3. As vezes, denominamos um vetor de comprimento n-vetor. Usamos letras minúsculas para 
denotar vetores e denotamos o i-ésimo elemento de um vetor x de tamanho n por x,, para i = 1, 2, ..., n. Tomamos a 
forma-padrão de um vetor como um vetor coluna equivalente a uma matriz n x 1; o vetor linha correspondente é 
obtido tomando a transposta: 


W=(235). 


O vetor unitário e, é o vetor cujo i-ésimo elemento é 1 e todos os outros elementos são iguais a zero. Em geral, o 
tamanho de um vetor unitário fica claro no contexto. 

Uma matriz nula é uma matriz na qual todas as entradas são zero. Tal matriz é frequentemente denotada por 0, já 
que a ambiguidade entre o número zero e uma matriz de zeros em geral é resolvida facilmente pelo contexto. Se 
pretendemos uma matriz de zeros, então o tamanho da matriz também precisa ser deduzido do contexto. 


Matrizes quadradas 


Matrizes quadradas n x n surgem frequentemente. Diversos casos especiais de matrizes quadradas têm interesse 
particular: 
1. Uma matriz diagonal tem a; = O sempre que i + j. Como todos os elementos fora da diagonal são zero, a matriz 
pode ser especificada por uma lista de elementos ao longo da diagonal: 


a, O Õ 
diag (a, 4, o 10) E j Za j 
O 0 


nn 


2. Amatriz identidade n x n I,é uma matriz diagonal com Is ao longo da diagonal: 


1, = diag(1.,...,1) 
Quando 1 aparece sem índice, deduzimos seu tamanho do contexto. A i-ésima coluna de uma matriz identidade é o 

vetor unitário e.. 

3. Uma matriz tridiagonal T é tal que t; = O se |i —- j| > 1. Entradas não nulas aparecem somente na diagonal 


principal, imediatamente acima da diagonal principal (t;, : + para i = 1,2,...,n — 1) ou imediatamente abaixo da 
diagonal principal (t+ 1, para i= 1,2,..,n— 1): 


q do OU O 0 

21 E bo 0 

0 E bs ” 0 
j= : : : ; 

0 0 0 0 rs Ei 0 

0 n—-1,n-2 n—-1,n-1 n-,n 

O 0 00 0 


n,n—1 n-2,n-1 


4. Uma matriz triangular superior U é tal que u;= O se i >. Todas as entradas abaixo da diagonal são zero: 


u,, U, o 
U — 0 Us» Em 
O O 


nn 


Uma matriz triangular superior é triangular superior unitária se tem apenas Is ao longo da diagonal. 
5. Uma matriz triangular inferior L é tal que l;= O se i <;. Todas as entradas acima da diagonal são zero: 


11 U U 
L=| à L, 0 
nl n2 é nn 


Uma matriz triangular inferior é triangular inferior unitária se tem somente Is ao longo da diagonal. 
6. Uma matriz de permutação P tem exatamente um 1 em cada linha ou coluna e zeros em todas as outras 
posições. Um exemplo de matriz de permutação é 


Ad Ol 
E 
FL 040 
Ooo oua 
Ee dd Gb 


Tal matriz é denominada matriz de permutação porque multiplicar um vetor x por uma matriz de permutação tem o 
efeito de permutar (rearranjar) os elementos de x. O Exercício D.1-4 explora propriedades adicionais da matrizes de 
permutação. 

7. Uma matriz simétrica A satisfaz a condição 4 = Ar. Por exemplo, 


QN ma 
Ra N 
6 OS) 


é uma matriz simétrica. 


Operações básicas com matrizes 


Os elementos de uma matriz ou vetor são números que pertencem a um sistema numérico, como os números reais, 
os números complexos ou inteiros módulo um número primo. O sistema numérico define como somar e multiplicar 
números. Podemos estender essas definições para englobar a adição e a multiplicação de matrizes. 

Definimos a adição de matrizes da seguinte maneira: se 4 = (a;) e B = (b;) são matrizes m X n, então a soma 
dessas matrizes C = (c,) = 4 + B é a matrizm x n definida por 


EB. 
1j ij ij 


parai=1,2,.,mej=1,2,...,n. Isto é, a adição de matrizes é executada componente a componente. Uma matriz 
zero é a identidade para adição de matrizes: 


A+0=4=0+4A4 


Se / é um número e 4 = (a;;) é uma matriz, então /4 = (la;) é o múltiplo escalar de 4 obtido pela multiplicação de 
cada um de seus elementos por /. Como caso especial, definimos a negativa de uma matriz 4 = (a;) como —1 : 4 = 
—A, de modo que a ij-ésima entrada de —A é —a,,. Assim, 


Ar(GA)=0 =CAJ+A. 


Usamos a negativa de uma matriz para definir subtração de matrizes 4 -B=A + (-B). 

Definimos multiplicação de matrizes da maneira descrita a seguir. Começamos com duas matrizes 4 e B que são 
compatíveis no sentido de que o número de colunas de 4 é igual ao número de linhas de B. (Em geral, sempre 
consideramos que uma expressão que contém um produto de matrizes AB implica que as matrizes 4 e B são 
compatíveis.) Se 4 = (a;.) é uma matriz m X ne B= (b,) é uma matriz n x p, então seu produto de matrizes C = AB é 
a matriz m x p C = (c,), onde 


,=>,0,b, (D.2) 
k=1 


parai=1,2,.,mej=1,2,...,p. O procedimento Square-Marrix-MuLrrry na Seção 4.2 implementa a multiplicação 
de matrizes da maneira direta baseada na equação (D.2), considerando que as matrizes sejam quadradas: m = n = p. 
Para multiplicar matrizes n X n, Square-Marrix-MuLnrLy executa n, multiplicações e n,(n — 1) adições, e seu tempo de 
execução é O(n,). 

Matrizes têm muitas (mas não todas) das propriedades algébricas típicas de números. Matrizes identidade são 
identidades para multiplicação de matrizes: 


LA=AL=A 
para qualquer matriz 4 m x n. Multiplicar por uma matriz zero dá uma matriz zero: 
AU =D). 
A multiplicação de matrizes é associativa: 
A(BC) = (AB)JC 
para matrizes compatíveis 4, Be €. A multiplicação de matrizes é distributiva para a adição: 


A(B+C) = AB+ AC, 
(B+CO)D=BD+CD. 


Para n > 1, a multiplicação de matrizes n x n não é comutativa. Por exemplo, se 


A= 0 1 eB= 0 0 , então 
O 0 1 0 


AB=| 1 0 
0 0 
É 


BA=| 0 O 
01 


Definimos produtos matriz-vetor ou produtos vetor-vetor como se o vetor fosse a matriz n x 1 equivalente (ou uma 
matriz 1 x n, no caso de um vetor linha). Assim, se 4 é uma matriz m x n e x é um n-vetor, então Ax é um m-vetor. Se 
x ey são vetores n, então 


n 
a, 
Cy=D AY, 
t=1 


é um número (na realidade, uma matriz 1 x 1) denominado produto interno de x e y. A matriz xy, é uma matrizn X n 
Z denominada produto externo de x ey, comz =x y. Anorma (euclidiana) ||| de um vetor n x é definida por 


Il = Ao =” 7% ala ira af o a 


Er (a 


Assim, a norma de x é seu comprimento no espaço euclidiano de n dimensões. 


Exercícios 

D.1-1 Mostre que, se 4 e B são matrizes n x n simétricas, então 4 + Be 4 — B também são simétricas. 
D.1-2 Prove que (ABJT = B,A, e que 4,4 é sempre uma matriz simétrica. 

D.1-3 Prove que o produto de duas matrizes triangulares inferiores é triangular inferior. 


D.1-4 Prove que, se P é uma matriz de permutação n x n e 4 é uma matriz n x n, então o produto de matrizes PA é 
À com suas linhas permutadas e que o produto de matrizes AP é A com suas colunas permutadas. Prove que 
o produto de duas matrizes de permutação é uma matriz de permutação. 


D.2 PROPRIEDADES BÁSICAS DE MATRIZES 


Nesta seção, definimos algumas propriedades básicas pertinentes a matrizes: inversas, dependência linear, 
independência linear, posto e determinantes. Definimos também a classe de matrizes positivas definidas. 


Inversas, postos e determinantes de matrizes 


Definimos a inversa de uma matriz 4 n x n como a matriz n x n denotada por 4-1 (se existir), tal que 44-1 = 1, = 
A-1A. Por exemplo, 


—1 


11) qD 4 
1 0 1 —1 


Muitas matrizes n x n não nulas não têm inversas. Uma matriz que não tem inversa é denominada não inversível ou 
singular. Um exemplo de matriz singular não nula é 


1 0 
1 0 


Se uma matriz tem uma inversa, ela é denominada inversível ou não singular. Inversas de matrizes, quando existem, 
são únicas. (Veja o Exercício D. 2-1.) Se 4 e B são matrizes n x n não singulares, então 


(BAJI = ABA. 
A operação inversa comuta com a operação transposta: 
(AT = (AM, 


Os vetores x,, x», ..., x, são linearmente dependentes se existem coeficientes c,, c,, ..., c,, nem todos iguais a 
zero, tais que cx, + cx, +... + cx, = 0. Por exemplo, os vetores linhas x, =(123),x,=(264)ex,;=(4119) 


são linearmente dependentes, já que 2x, + 3x, — 2x, = 0. Se os vetores não são linearmente dependentes, são 
linearmente independentes. Por exemplo, as colunas de uma matriz identidade são linearmente independentes. 

O posto coluna de uma matriz 4 m x n não nula é o tamanho do maior conjunto de colunas linearmente 
independentes de 4. De modo semelhante, o posto linha de A é o tamanho do maior conjunto de linhas linearmente 
independentes de 4. Uma propriedade fundamental de qualquer matriz 4 é que seu posto linha é sempre igual a seu 
posto coluna, de modo que podemos simplesmente nos referir ao posto de 4. O posto de uma matriz m x n é um 
inteiro entre O e min(m, n), inclusive. (O posto de uma matriz zero é 0, e o posto de uma matriz identidade n x n é n.) 
Uma definição alternativa, embora equivalente e, muitas vezes, mais útil é que o posto de uma matriz 4 m x n não nula é 
o menor número 7 tal que existem matrizes B e € de tamanhos respectivos m xr er x n tais que 


AS BO. 


Uma matriz quadrada n x n tem posto completo se seu posto é n. Uma matriz m x n tem posto coluna 
completo se seu posto é n. O teorema a seguir dá uma propriedade fundamental de postos. 


Teorema D.1 
Uma matriz quadrada tem posto completo se e somente se ela é não singular. 


Um vetor anulador para uma matriz 4 é um vetor não nulo x tal que 4x = 0. O teorema a seguir, cuja prova fica para 
o Exercício D.2-7 e seu corolário relacionam as noções de posto coluna e singularidade a vetores anuladores. 


Teorema D.2 


Uma matriz 4 tem posto coluna completo se e somente se não tem vetor anulador. 


Corolário D.3 


Uma matriz quadrada 4 é singular se e somente se tem vetor anulador. 


O ij-ésimo menor de uma matrizn xn 4, paran > 1 é a matriz (n — 1) x (n— 1) Ai obtida pela eliminação da i- 
ésima linha e da j-ésima coluna de 4. Definimos o determinante de uma matriz n x n A recursivamente em termos de 
seus menores por 


a, gsen=1 
det(A)= 1 aê 
ER >-Da, der Af1j) sen>1 


j=1 


O termo (1); det(4 ) é conhecido como cofator do elemento a. 
Os teoremas a segurr, cujas provas são omitidas aqui, expressam propriedades fundamentais do determinante. 


Teorema D.4 (Propriedades de determinantes) 
O determinante de uma matriz quadrada 4 tem as seguintes propriedades: 
* Se qualquer linha ou qualquer coluna de 4 é nula, então det(4) = 0. 


* O determinante de 4 é multiplicado por / se as entradas de qualquer uma das linhas (ou de qualquer uma das 
colunas) de 4 são multiplicadas por /. 


* O determinante de 4 não se altera se as entradas em uma linha (respectivamente, coluna) são adicionadas às de 
outra linha (respectivamente, coluna). 

* O determinante de 4 é igual ao determinante de Ar. 

* O determinante de 4 é multiplicado por —1 se quaisquer duas linhas (respectivamente, colunas) são trocadas. 


Além disso, para quaisquer matrizes quadradas 4 e B, temos det(4B) = det(A)det(B). 


Teorema D.5 


Uma matriz n x n A é singular se e somente se det(4) = 0. 


Matrizes positivas definidas 


Matrizes positivas definidas desempenham um papel importante em muitas aplicações. Uma matriz 4 n x n é 
positiva definida se x, Ax > O para todos os n-vetores x £ 0. Por exemplo, a matriz identidade é positiva definida, já 
que, para qualquer vetor não nulo x = (x,x,...x,)T, 


gde: =x'x 


E, 


Matrizes que surgem em aplicações frequentemente são positivas definidas devido ao teorema a seguir. 


Teorema D.6 


Para qualquer matriz 4 com posto coluna completo, a matriz 4,4 é positiva definida. 
Prova Devemos mostrar que x, (4. 4)x > O para qualquer vetor não nulo x. Para qualquer vetor x, 


x(AIA)x = (Ax)(Ax) (pelo Exercício D.1-2) 
= ||AxlP 


Observe que ||4x||2 é apenas a soma dos quadrados dos elementos do vetor 4x. Então, ||4x|2. > 0. Se I|A4x|2 = 0, 
todo elemento de 4x é 0, o que significa que 4x = 0. Visto que 4 tem posto coluna completa, 4x = O implica x = 0, 
pelo Teorema D.2. Consequentemente, 4,4 é positiva definida. 


A Seção 28.3 explora outras propriedades de matrizes positivas definidas. 
Exercícios 


D.2-1 Prove que matrizes inversas são únicas, isto é, se Be C são inversas de 4, então B= C. 


D.2-2 


D.2-3 


D.2-4 


D.2-5 


D.2-6 


D.2-7 


D.2-8 


Prove que o determinante de uma matriz triangular inferior ou triangular superior é igual ao produto dos 
elementos de sua diagonal. Prove que a inversa de uma matriz triangular inferior, se existir, é triangular inferior. 


Prove que, se P é uma matriz de permutação, então P é mversível, sua inversa é PT, e PT é uma matriz 
permutação. 


Sejam 4 e B matrizes n x n tais que 4B = T. Prove que, se 4' é obtida de 4 mediante a adição da Inha j à 
linha i, então subtrair a coluna i da coluna j de B produz a inversa B' de 4'. 


Seja 4 uma matriz não singular n x n com entradas complexas. Mostre que toda entrada de 4-1 é real se e 
somente se toda entrada de A é real. 


Mostre que, se 4 é uma matriz não singular simétrica n x n, então 4-1 é simétrica. Mostre que, se B é uma 
matriz arbitrária m x n, então a matriz m x m dada pelo produto BA4B, é simétrica. 


Prove o Teorema D.2. Isto é, mostre que uma matriz 4 tem posto coluna completo se e somente se 4x = 0 
implica x = 0. (Sugestão: Expresse a dependência linear de uma coluna em relação às outras como uma 
equação matriz-vetor.) 

Prove que, para quaisquer duas matrizes compatíveis 4 e B, 


posto(AB) < min(posto(A), posto(B)) , 


onde a igualdade se mantém se 4 ou B é uma matriz quadrada não singular. (Sugestão: Use a definição 
alternativa de posto de uma matriz.) 


Problemas 


D-I1 


Matriz de Vandermonde 


Dados os números x,, X,, ..., x, - 1, prove que o determinante da matriz de Vandermonde 
2 n 
l %o 0 Xom 
1 & e ar 
a 1 1 0-1 
Pta %1) é é 
1 X x? n—1 


deite do [1 (x, —x). 


O<i<k<n—l 


(Sugestão: Multiplique a coluna i por —x, e adicione-a à coluna i+ 1 parai=n-—1,n,n-—2,..., 1, e depois 
use indução.) 


Permutações definidas por multiplicação matriz-vetor em GF (Q) 


Uma classe de permutações de inteiros no conjunto S, = (0, 1, 2,..., 2: — 1) é definida por multiplicação de 
matrizes em GF(2). Para cada inteiro x em S,, vemos sua representação binária como um vetor de n bits 


1 


n-1 ; 

onde x = Eae: £2" Se À é uma matriz n x n na qual cada entrada é zero ou 1, então podemos definir uma 
permutação mapeando cada valor x em, para o número cuja representação binária é o produto matriz- vetor 
Ax. Aqui, efetuamos toda a aritmética em G F(2): todos os valores são O ou 1 e, com uma única exceção, as 
regras usuais da adição e da multiplicação se aplicam. A exceção é que 1 + 1 = 0. Você pode muito bem 
imaginar que a aritmética em GF(2) é exatamente igual à aritmética normal de inteiros, exceto que usará 
somente o bit menos significativo. 


Como exemplo, para S, = (0, 1, 2, 33, a matriz 


A-[10] 


define a seguinte permutação 4: 4(0) = 0, (1) = 3, 40) = 2, 4(3) = 1. Para ver por que 4(3) = 1, observe 
que, trabalhando em GF.2/, 


mo=[19)1] 
Pude 
ES 


que é a representação binária de 1. 


No restante deste problema, trabalhamos com GF(2) e todas as entradas de matrizes e vetores são O ou 1. 
Definimos a o posto de uma matriz 0-1 (uma matriz para a qual cada entrada é O ou 1) em GF (2) do mesmo 
modo que para uma matriz comum, porém com toda a aritmética que determina dependência linear executada 
em GF(2). Definimos a imagem de uma matriz 0-1 nxn 4 por 


de modo que R(4) seja o conjunto de números em S, que podemos produzir multiplicando cada valor de x em 
S, por por 4. 


a. Seréo posto da matriz 4, prove que |R(4)|- 2.. Conclua que 4 define uma permutação em S, somente 
se A tiver posto completo. 
Para uma matriz nxn 4 dada e para um valor y & R(4) dado, definimos a pré-imagem de y por 


PA, p= tridx=ys; 
de modo que P(A, y) seja um conjunto de valores em S, que mapeia para y quando multiplicado por 4. 
b. Seréo posto damatrznxn A ey E R(4), prove que |P(A, y)= 21-». 


Seja O <m <n, e suponha que particionamos o conjunto S, em blocos de números consecutivos, onde o i- 
ésimo bloco consiste nos 2m números i2m, i2m + 1, i2m +2,..., (i+ 1)2m - 1. Para qualquer subconjunto S & 
S defina B(S,m) como o conjunto de blocos de tamanho 2m de S, que contém algum elemento de ;S. Como 
exemplo, quando n =3,m =1 e S= (1,4, 5, então B(S,m) consiste em blocos O (visto que 1 está no O- 
ésimo bloco) e 2 (visto que 4 e 5 estão no bloco 2). 


c. Sejaro posto da submatriz inferior esquerda (n - m) x m de 4, isto é, a matriz formada tomando a 
interseção das n - m linhas inferiores com as m colunas da extrema esquerda de 4. Seja S qualquer bloco 
de tamanho 2, de Sre seja Sº = fy :y = Ax para algum x E S). Prove que |B(S”, m| = 2,€ que, para 
cada bloco em B(S',m), exatamente 2, - "números em S mapeiam para aquele bloco. 


Como multiplicar o vetor zero por qualquer matriz produz um vetor zero, o conjunto de permutações de S, 
definido pela multiplicação de matrizes 0-1 n x n com posto completo em GF(2) não pode inclur todas as 
permutações de S,. Vamos estender a classe de permutações definida pela multiplicação matriz-vetor para 
incluir um termo aditivo, de modo que x E S, mapeie para 4x + c, onde c é um vetor de n bits e a adição é 
efetuada em GF(2). Por exemplo, quando 


4-[10 
11 


Ú 
1 


obtemos a seguinte permutação 4,º : 4, (0) = 2,4,(1) = 1, 4,º(2) = 0, 4,º(3) = 3 . Denominamos permutação 
linear qualquer permutação que mapeie x E S, para 4x + c, para alguma matriz 0-1 n x n 4 com posto 
completo e algum vetor c de n bits. 


BR 


d. Use um argumento de contagem para mostrar que o número de permutações lineares de S, é muito menor 
que o número de permutações de S. 


e. Dê um exemplo de valor de n e uma permutação de S, que não possa ser conseguida por nenhuma 
permutação linear. (Sugestão: Para dada permutação, pense em como multiplicar uma matriz por um 
vetor unitário está relacionado com as colunas da matriz.) 


Noras DO APÊNDICE 


Livros didáticos de álgebra linear apresentam muitas informações sobre matrizes. Os livros de Strang [323, 324] 
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497 
e relaxamento 472, 473, 474, 475, 478, 483, 488, 489, 490, 491, 492, 493 
e restrições de diferença 484 
ciclo de um grafo 458 
de peso médio mínimo 495, 496 
de peso negativo 469, 470, 471, 474, 475, 476, 477, 483, 484, 486, 487, 489, 491, 492, 493, 494, 496 
e caminhos mínimos 484 
hamiltoniano 809, 810, 811, 812, 813 
ciclo hamiltoniano 764, 765, 774, 775, 776, 794, 795, 796, 797, 798, 799, 804 
ciclo simples 448, 452, 453, 764, 773, 774, 802 
Cilk 893, 894, 895 
Cilk++ 894 
circuito 664, 665, 667, 668 
combinacional booleano 767, 780, 781, 782, 783, 787 
para transformada rápida de Fourier 82 
profundidade de 439, 441, 442, 443, 444, 445, 446, 447, 449, 451, 453 
CIRCUIT-SAT 777, 781, 782, 784, 785, 786, 787, 788, 790, 791 
Circulação de custo mínimo 650 
classe 193, 194, 195, 203, 204, 205, 207 
de complexidade 768, 769, 772, 775, 716 
de equivalência 674, 682, 683, 684 
classe de complexidade 768, 769, 772, 775, 716 
Classe de complexidade 
co-NP 776, 777, 785, 790, 791 
NP 764, 765, 766, 767, 768, 769, 775, 776, 777, 779, 780, 781, 782, 783, 784, 785, 786, 787, 788, 791, 792, 793, 794, 795, 798, 799, 801, 802, 
803, 804 
NPC 765, 779, 785, 786 
P 764, 765, 768, 769, 770, 772, 773, 775, 776, 777, TT8, TT9, 781, 785, 791, 804 
classe de equivalência 844 
classificação de arestas 
em busca em profundidade 427, 429, 439, 440, 441, 442, 443, 444, 445, 446, 447, 448, 449, 450, 451, 452, 453 
por busca emlargura 427, 429, 432, 433, 434, 435, 436, 437, 438, 439, 441, 452, 453 
Classificação de arestas 443, 452 
cláusula 436 
cláusula then 436 
clique 895 
algoritmo de aproximação para 817, 828 
cluster 
altura constante 388, 392 
emárvores de van Emde Boas 386, 387, 389, 405, 406, 407 
emestruturas proto van Emde Boas 386, 387, 391, 392, 393, 394, 395, 396, 400 
para computação paralela 558 
CNF (forma normal conjuntiva - conjunctive normal form) 806, 817, 818, 820, 829 
cobertura 858 
de vértices 806, 807, 808, 809, 813, 817, 818, 819, 820, 827, 829 
cobertura de vértices 806, 807, 808, 809, 813, 817, 818, 819, 820, 827, 829 
cobertura de vértices de peso mínimo 818, 819, 820 
cobertura de vértices ótima 807, 808, 809, 820 
codificação de instâncias de um problema 770 
codificação padrão 771, 799 
código 560, 570, 572, 573, 574, 581 
código de caracteres binários 312, 313, 847 
código de comprimento fixo 313, 314 
código de comprimento variável 313 
código de Huffiman 314, 318 
código de prefixo 313, 314, 315, 316, 317, 318 


coeficiente 174 
binomial 98 
de um polinômio 41 
em forma de folgas 615, 617, 622, 629 
coeficiente binomial 860 
cofator 887 
coleção universal de funções hash 193 
coleta de lixo 110 
colisão 186, 187, 193, 194, 195, 202, 203, 206 
resolução por encadeamento 184, 186, 187, 188, 189, 190, 192, 193, 194, 196, 198, 200, 202, 206, 208 
resolução por endereçamento aberto 184, 187, 196, 197, 198, 200, 202, 206, 208 
Coloração 856 
combinação 859, 860 
combinação convexa de pontos 738, 743, 751 
Compactify-List 178 
Compact-List-Search 182, 183 
Compare-Exchange 151 
complemento 
de uma linguagem 771, 778, 788 
de um conjunto 559 
de umevento 118 
de um grafo 847, 849, 850 
Schur 595, 596, 597, 598, 599, 600, 603, 605, 606 
complemento de Schur 595, 596, 597, 598, 599, 600, 603, 605, 606 
completude de uma linguagem 765, 766, 767, 768, 769, 775, 777, 779, 781, 782, 784, 785, 786, 787, 791, 804 
componente 664 
biconexa 452, 453 
conexa 437, 446, 448, 449, 450, 451 
fortemente conexa 448, 449, 450, 451 
componente biconexa 452, 453 
componente conexa 457 
componente fortemente conexa 448, 449, 450, 451 
compressão de caminho 459 
Compressão de imagem 299 
comprimento 677, 688, 695, 697, 700, 702, 708, 712, 713, 715 
de uma cadeia 717 
de um caminho 556 
comprimento de caminho extemo 855 
comprimento de caminho intemo 855 
computação multithread 564, 565, 566, 567, 568 
computador multinúcleo 572 
computador paralelo 560, 561, 565, 566, 567, 568, 572, 575 
ideal 565, 566, 567, 568, 572, 575 
computador paralelo ideal 565, 566, 567, 568, 572, 575 
Compute-Prefix-Function 731, 732, 733, 734 
Compute-Transition-Function 728 
concatenação 717, 736, 737 
de cadeias 769, 771, 772 
de linguagens 768, 771, 772, 773, 775, 776, 777, 778, 179, 786 
condição de contorno, em uma recorrência 740, 747 
condição de crescimento de polinômio 83 
condição de regularidade 602, 603 
conectividade de arestas 351 
conectivo 790 
configuração 780, 782, 783, 784 
conjunto 558, 559, 564, 565 
convexo 520 
independente 320, 321, 325, 326 
conjunto convexo 520 
conjunto de arestas 319, 321, 328 


conjunto de vértices 811 
conjunto dinâmico 408, 423 
conjunto finito 859 
conjunto independente 320, 321, 325, 326 
de tarefas 325 
conjunto infinito 842 
conjunto infinito contável 842 
conjunto parcialmente ordenado 845 
conjuntos disjuntos 408, 409, 410, 412, 413, 414, 416, 418, 419, 421, 423, 424, 425, 426 
conjunto unitário 414 
conjunto vazio 480 
Connected-Components 448, 449, 450, 451 
co-NP 776, 777, 785, 790, 791 
conservação de fluxo 518, 523, 526, 532, 534, 536, 625, 627, 650 
consistência 621 
de literais 818, 820 
sequencial 782 
Consistência sequencial 565 
consolidar a lista de raízes de umheap de Fibonacci 373, 376 
Consolidate 372, 373, 374, 376, 380 
constante de Euler 685 
contador binário 330, 332, 333, 335, 337, 667 
analisado por análise agregada 268, 330, 331, 332, 333, 334, 340, 349, 379, 425, 435, 441, 477, 482, 732, 736, 755 
analisado por método da contabilidade 333, 336, 349 
analisado por método do potencial 330, 331, 335, 336, 337, 340, 342, 346, 349, 370, 416, 419 
cominversão de bits 345, 665, 666, 667, 668 
contador binário com inversão de bits 667 
contador de programa 782, 783, 784 
contagem 830 
probabilística 830 
Contagem probabilística 104 
contém um caminho 471, 477, 492 
contorno de um polígono 743 
contração 850 
de uma tabela dinâmica 339 
de um grafo não dirigido 319, 327 
de ummatroide 319, 320, 321, 322, 323, 324, 325, 327, 328 
conversão de binário para decimal 677 
convolução 654, 664 
correspondência 328 
de cadeias 716, 717, 718, 719, 720, 722, 724, 725, 726, 728, 729, 733, 735, 737 
correspondência de cadeias 716, 717, 718, 719, 720, 722, 724, 725, 726, 728, 129, 733, 735, 137 
baseada em fatores de repetição 737 
corrida de determinância 572, 573 
corte 520, 521, 525, 526, 527, 532, 533, 534, 536, 537, 541, 544, 553, 555 
capacidade de 518, 520, 525, 526, 527, 555 
de uma rede de fluxo 525, 526 
de um grafo não dirigido 525, 532 
emcascata 377, 378, 379, 382 
fluxo líquido através de um 525, 526, 534 
mínimo 520, 521, 525, 527, 532, 533, 536, 541, 544, 553, 555 
Corte de hastes 263 
corte em cascata 377, 378, 379, 382 
corte mínimo 639, 643 
Counting-Sort 141, 142 
crédito 330, 333, 334, 335, 340 
criptossistema 558 
criptossistema RSA de chaves públicas 558 
crivo de corpo de números 715 
crivo genérico de corpo de números 715 


custo amortizado 247, 330, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 349, 371, 372, 376, 378, 379, 421, 422, 423, 482 
na análise agregada 334 
no método da contabilidade 333 
no método do potencial 334 

Cut-Rod 265, 266, 267, 268, 269, 270 


D 


dados satélites 107, 108 
decomposição de valor singular 612 
decomposição LU 655 
decomposição LUP 590, 591, 592, 594, 595, 596, 597, 598, 599, 600, 601, 604, 610 
cálculo de 592 
de uma matriz de permutação 600 
de uma matriz diagonal 600 
eminversão de matrizes 601 
decomposição LUP de 600, 601, 604 
Decrease-Key 514 
decrementando uma chave 
emheaps de Fibonacci 369, 370, 384 
Heaps 2-3-4 384 
Decrementando uma chave 377 
degenerescência 636 
Delete 386, 387, 388, 393, 396, 398, 399, 403, 404, 406, 407 
Delete-Larger-Half 338 
densidade 270 
de uma haste 270 
Densidade 
de números primos 702 
dependência 
linear 886, 889, 890 
dependência linear 886, 889, 890 
de polinômios 41, 42, 45, 652, 653, 654, 656, 657, 658, 660, 663 
Dequeue 433 
descendente 433, 441, 442, 443, 444, 445, 447, 451, 453 
descendente próprio 443 
descritor 368 
Desigualdade da função sufixo 727 
desigualdade de Boole 99 
desigualdade de Jensen 221 
desigualdade de Kraft 855 
desigualdade de Markov 203, 205 
desigualdade linear 649 
desigualdade triangular 806, 809, 810, 811, 812, 813, 829 
deslocamento inválido 716 
deslocamento válido 716, 720, 723 
desvio-padrão 869, 870 
determinante 887, 888, 889 
DFS 439, 440, 441, 444, 445, 447, 448, 449, 450, 451 
DFS-Visit 440, 441, 444, 445 
DFT (transformação discreta de Fourier) 656, 657, 658, 660, 661, 662, 663, 664, 665, 666, 668, 669, 670, 671 
diagrama de Yenn 841, 842 
diâmetro de uma árvore 438 
dicionário 351 
diferença simétrica 556 
diferença simétrica de conjuntos 556 
Dijkstra 626 
Direct-Address-Delete 185 
Direct-Address-Insert 185 
Direct-Address-Search 185 


Direction 741 
DISCHARGE 547, 552 
disco 748, 762 
Disk-Read 354, 357, 358, 360, 361, 365 
Disk-Write 354, 357, 358, 359, 360, 361, 365 
distância 354 
de caminho mais curto 25 
de edição 287, 296, 297, 298, 301 
euclidiana 886 
Manhattan 760 
distância de edição 287, 297, 298 
distância euclidiana 809, 810, 813 
distância Manhattan 163 
distribuição 262, 294 
binomial 98 
de entradas 85, 90 
de envoltórias esparsas 762 
de números primos 47 
de probabilidade 18 
geométrica 98 
uniforme 711 
uniforme contínua 711 
distribuição binomial 858, 871, 872, 873, 874, 875, 876, 878, 880 
caudas da 875 
valor máximo da 85, 103 
distribuição de envoltórias esparsas 762 
distribuição de probabilidade 863, 864 
distribuição de probabilidade discreta 191 
Distribuição de probabilidade uniforme 864 
Distribuição de probabilidade uniforme contínua 864 
distribuição geométrica 98 
divisor 
comum 672, 673, 674, 675, 677, 678, 681, 683, 690, 708, 710, 713, 714 
divisor comum 558 
máximo 558 
DNA 285, 297 
DNF (forma normal disjuntiva) 789, 790, 791 
domínio da frequência 652 
domínio do tempo 652, 671 
downto, e, pseudocódigo 141, 151 
dualidade 617, 639, 640, 643, 650 
fraca 640, 643, 650 
dualidade fraca 640, 643, 650 
duração 308 


E 


eficiência assintótica 32 
elemento de um conjunto 165 
elementos maximais de um conjunto parcialmente ordenado 845 
elevação ao quadrado repetida 695, 696 
eliminação 887 
do status de uma linha de varredura 744, 745, 746, 747, 761 
emárvore de estatística de ordem 155, 159, 162, 163 
emárvores de busca binária 225 
emárvores de intervalos 255 
emárvores de van Emde Boas 351 
emárvores vermelho-preto 745 
emB-árvores 350, 352, 354, 355, 356, 357, 363, 366 
emestruturas proto-van Emde Boas 400 


em filas 171 
emheaps 514 
em Heaps 2-3-4 384 
emheaps de Fibonacci 514 
emlistas ligadas 188, 196 
empilhas 168, 169, 171 
emtabelas de endereço direto 184, 185, 186 
emtabelas de hash de endereço aberto 197, 199, 200, 201, 202 
emtabelas dinâmicas 338 
else, em pseudocódigo 528, 538, 547 
elseif, em pseudocódigo 547 
embrulhar presente 755 
emparelhamento 808, 809, 826, 827 
bipartido 385 
bipartido ponderado 385 
máximo 826, 827 
perfeito 535, 536 
emparelhamento em grafo bipartido 557 
emparelhamento maximal 808, 809, 826, 827 
emparelhamento máximo 516, 533, 534, 535, 544, 556, 557 
emparelhamento máximo em grafo bipartido 
Algoritmo Hopcroft-Karp para 556 
Emparelhamento máximo em grafo bipartido 533 
emparelhamento perfeito 535, 536 
em pseudocódigo 84, 415, 429 
em torno da mediana de 3 
elementos 160 
encadeamento 184, 186, 187, 188, 189, 190, 192, 193, 194, 196, 198, 200, 202, 206, 208 
endereçamento aberto 184, 187, 196, 197, 198, 200, 202, 206, 208 
endereçamento direto 184, 186 
Enqueue 433, 435 
entrada 
tamanho da 32 
envoltória convexa 21,23, 738, 749, 750, 751, 752, 753, 755, 756, 757, 762, 763 
equação 221 
normal 608, 609 
recorrência 603 
equação de recorrência 58 
equação normal 608, 609 
equações lineares 590, 591, 593, 595, 597, 601, 610, 612 
resolver, modulares 558 
resolver sistemas de 601, 612 
Sistemas tridiagonais de 610 
equações lineares modulares 687 
equivalência modular 672, 673 
erro de aproximação 311, 312, 773, 828 
error, em pseudocódigo 599 
esalonamento 
ponto eventual 745 
escalonador 561, 563, 566, 567, 568, 574, 575, 588, 589 
centralizado 567 
comroubo de trabalho 589 
guloso 567, 568, 574, 575, 588, 589 
escalonador guloso 567, 568, 574, 575, 588, 589 
Escalonamento 827 
escalonamento de pontos eventuais 745, 746 
espaço amostral 87 
espinha 245, 246 
esquema de aproximação 806, 821, 822, 823, 824, 825, 826, 829 
esquema de aproximação de tempo completamente polinomial 806, 821, 822, 824, 825, 826 


para soma de subconjuntos 806, 821, 822, 824, 825, 829 
esquema de aproximação de tempo polinomial 806, 829 
para clique máximo 826 
estabilidade 655 
numérica 655 
estabilidade numérica 655 
estado aceitador 724, 725, 726, 727 
estado inicial 724, 725, 726 
estatística de ordem 248 
estatística de ordem dinâmica 248 
estêncil 587, 588 
estêncil, cálculo simples com 587, 588 
estouro 197 
de uma fila 171 
de uma pilha 168 
estouro negativo 168, 170, 171 
estratégia do futuro mais longínquo 328 
estrela de Kleene 771, 777 
estrelado, polígono 756, 757 
estritamente crescente 40, 42 
estritamente decrescente 40 
estrutura de dados 529, 544, 545 
árvore de busca binária 226, 228, 229, 230, 242, 243, 244, 245, 246 
árvores 2-3 384 
árvores 2-3-4 384 
árvores AA 247 
Árvores AVL243 
árvores de bode expiatório 247 
árvores de fusão 351 
Árvores de intervalos 255 
árvores de k vizinhos 247 
Árvores de peso balanceado 346 
árvores de van Emde Boas 351 
árvores digitais 406 
árvores enraizadas 368, 369 
árvores obliquas 247 
árvores vermelho-preto 386 
B-árvores 350, 352, 354, 355, 356, 357, 363, 366 
conjuntos dinâmicos 350, 351, 352, 366 
em armazenamento secundário 209 
estruturas proto-van Emde Boas 386, 387, 400 
filas 386 
filas de prioridades 111, 118, 122 
heap intercalável 181 
Heaps 181 
heaps 2-3-4 384, 385 
heaps binomiais 382, 384 
Heaps de Fibonacci 350 
heaps relaxados 385 
listas de saltos 247 
listas ligadas 188, 196 
para grafos dinâmicos 351 
persistente 351 
pilhas 167, 168, 169, 171, 177, 183 
potencial 330, 331, 335, 336, 337, 338, 340, 341, 342, 343, 344, 346, 347, 348, 349 
tabela de endereços diretos 184, 185, 186 
Treaps 244, 247 
estrutura de dados de conjuntos disjuntos 459 
análise de 408, 409, 410, 412, 413, 414, 416, 418, 419, 421, 423, 424, 425, 426 
caso especial de tempo linear 466, 467 


em componentes conexas 409, 410 
floresta de conjuntos disjuntos 459 
implementação de floresta de conjuntos disjuntos 459 
implementação de lista ligada 408 
no algoritmo de Kruskal 463 
no menor ancestral comum off-line 425 
no mínimo off-line 423 
estrutura parentizada de busca em profundidade 441, 445 
estrutura proto-van Emde Boas 391, 393, 399 
estruturas de dados Árvores dinâmicas 351 
dicionários 222 
para conjuntos disjuntos 408 
etapa completa 567 
etapa incompleta 567, 568 
Euler 764 
evento certo 863 
evento elementar 862, 863, 864, 867 
evento nulo 863 
eventos mutuamente exclusivos 863, 866 
Exact-Subset-Sum 821, 822, 825 
excesso de fluxo 536, 537, 538, 542, 546, 547, 548, 550, 551, 552 
Executar uma sub-rotina 561, 563, 570, 571, 573 
expansão binomial 860 
exponenciação modular 695, 696, 704 
Extended-Bottom-Up-Cut-Rod 269 
Extended-Euclid 680, 681, 684, 688, 689, 690 
Extend-Shortest-Paths 501, 502, 503, 504 
Extract-Max 112, 118, 119, 120, 121 
Extract-Min 118, 120, 122 
extrair a chave máxima 
de heaps de máximo 114 
extrair a chave mínima 370 
de heaps 2-3-4 384 
de heaps d-ários 121 
de heaps de Fibonacci 368, 369, 370, 382, 384, 385 
de tabelas de Young 121, 122 
extremidade 738, 739, 740, 741, 744, 745, 746, 747, 749, 755, 762 
de um segmento de reta 616 


F 


família de subconjuntos independentes 319,320 
fase de algoritmo relabel-to-front 516, 545, 546, 549, 550, 552 
Faster-All-Pairs-Shortest-Paths 503, 504 
fator 108 
de giro 662, 665, 666, 667, 668 
fatoração 672, 676, 678, 700, 702, 712, 715 
única 672, 676, 690, 692, 698 
fatoração única de inteiros 672, 676 
fator de aceleração 566, 567, 568, 569, 571, 579, 588 
fator de aceleração linear 566, 567, 568, 569, 571, 579 
fator de aceleração linear perfeito 566, 567 
fator de carga 339, 342, 343, 344 
de uma tabela dinâmica 339 
fator de giro 665, 668 
fecho 604 
de uma linguagem 771, 778, 788 
transitivo 604 
fecho transitivo 604 
FFTW 671 


Fib 562, 563, 564, 565, 566, 567, 569, 574 
Fib-Heap-Change-Key 384 
Fib-Heap-Decrease-Key 377, 378, 379 
Fib-Heap-Delete 376, 379, 382 
Fib-Heap-Extract-Min 372, 373, 374, 376, 379, 382 
Fib-Heap-Insert 371, 372 
Fib-Heap-Link 373, 374, 375, 377 
Fib-Heap-Prune 384 
Fib-Heap-Union 372 
fibra 564, 565, 566, 567, 568, 574, 577, 578 

final 565 

inicial 565 

logicamente em paralelo 581, 583 
fibra final 565 
fibra inicial 565 
FIFO (first-em, first-out) 168, 169 
fila de prioridade 

máxima 163 

mínima 118, 120 
fila de prioridade máxima 163 
fila de prioridade mínima 498, 510, 513 
fila de prioridades 386 

no algoritmo de Dijkstra 513 
filho 563, 573 

emárvore enraizada 471, 491, 492 

em computação multithread 564, 565, 566, 567, 568 
filho à direita 388 
filho da esquerda 250 
Find-Depth 424, 425 
Find-Max-Crossing-Subarray 52, 53, 54, 55 
Find-Maximum-Subarray 54, 55 
Find-Set 351 
FIND-SET 

implementação de floresta de conjuntos disjuntos 459 
Finite-Automaton-Matcher 727, 728, 731, 733, 134, 735 
fio 780, 781, 782, 786, 787 
floresta 457, 459, 460 

de busca em profundidade 439, 445, 452 

de conjuntos disjuntos 413, 414, 416, 419, 423, 424 
floresta de busca em profundidade 439, 445, 452 
floresta de conjuntos disjuntos 459 

análise de 426 

Propriedades de posto 418 
Floyd-Warshall 499, 504, 505, 506, 508, 509, 510, 513 
fluxo 22 

agregado 627, 628 

aumento de 530, 535 

de valor inteiro 534, 535 

excesso 536, 537, 538, 542, 546, 547, 548, 550, 551, 552 

líquido através de um corte 525, 526, 534 

valor de 517, 529, 530, 535 
fluxo agregado 627, 628 
fluxo de custo mínimo 624, 626, 628, 643, 650, 651 
fluxo de valor inteiro 534 
fluxo de várias mercadorias 624, 628 

custo mínimo 624, 626, 628, 643, 650, 651 
fluxo linear 

e emparelhamento máximo em grafo bipartido 628 
fluxo líquido por um corte 525, 526, 534 
fluxo máximo 22 


Atualização do 555 
como um programa linear 625, 651 
folga 24 
paralela 571 
folga paralela 571 
regra prática 569 
Folgas complementares 649 
folha 571 
for 
e invariantes de laço 12 
Ford-Fulkerson 520, 521, 525, 527, 528, 529, 530, 532, 533, 534, 535, 536, 555, 557 
Ford-Fulkerson-Method 521, 528, 555 
forma adiantada 324 
forma de folgas 615, 617, 618, 621, 622, 623, 628, 629, 631, 632, 633, 634, 636, 637, 638, 640, 641, 642, 643, 644, 645, 646, 647, 648 
forma normal 3-conjuntiva 788, 802 
forma normal conjuntiva 788, 789 
forma normal disjuntiva 789, 791 
forma normal k-conjuntiva 765 
fórmula booleana 764, 765, 777, 786, 787, 788, 790, 791, 792 
fórmula de Lagrange 655 
fórmula satis fazível 786 
Free-Object 177, 178 
função 806, 809, 810, 811, 812, 813, 824 
convexa 869 
de Ackermann 467 
estado final 724, 728 
hash 701 
linear 613, 614, 615, 619, 625 
objetivo 615, 616, 617, 618, 619, 620, 622, 625, 626, 627, 629, 630, 631, 632, 633, 639, 641, 642, 644, 645, 646 
potencial 543 
prefixo 729, 730, 731, 733, 734, 735, 736 
quadrática 34, 35, 36 
redução 778, 782, 783, 784 
sufixo 725, 727 
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função geradora 224 
função hash 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 202, 203, 204, 205, 207 
auxiliar 198, 202 
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iterado 43, 44 
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subproblema 126, 759 
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grafo completo 850 
grafo conexo 438, 452 
grafo de componentes 449, 450, 451, 452 
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singularmente conexo 446 
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grafo d-regular 536 
grafo esparso 463 
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grafo não hamiltoniano 774, 776 
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Greedy-Set-Cover 814, 815, 817 
grupo 761 
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operador 677 
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grupo cíclico 707 
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HAM-PATH 777 
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com encadeamento 188, 190, 202 
Com endereçamento aberto 197 
duplo 198, 199, 202 
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hashing uniforme simples 406 
hashing universal 193, 202 
Hash-Insert 187, 197, 201, 202 
Hash-Search 187, 197, 198 
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binomial 383, 384 
comparado com heap de Fibonacci 498, 510, 513, 514 
d-ário 514 
heap de máximo 367 
heap de mínimo 369, 371, 377, 383 
inserção em 35 
intercalável 367, 368 
no algoritmo de Dijkstra 513 
no algoritmo de Huffman 315, 316, 318 
no algoritmo de Johnson 513 
no algoritmo de Prim 483 
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heap 2-3-4 384, 385 
heap binário 121, 367, 368, 431, 463, 497, 498 
heap binomial 383, 384 
heap d-ário 514 
emalgoritmos de caminho mínimo 498, 499, 500, 504, 505, 506, 510, 511, 513, 515 
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heap de Fibonacci 367, 368, 369, 370, 371, 372, 373, 374, 375, 376, 378, 379, 380, 381, 382, 383, 384 
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no algoritmo de Dijkstra 483, 497 
no algoritmo de Johnson 513 
no algoritmo de Prim 483 
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heap de máximo 367 
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d-ário 121 
intercalável 367 
heap de mínimo 244 
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intercalável 350 
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Heap-Extract-Min 120 
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heap intercalável 367, 368 
heaps binomiais 382, 384 
heaps relaxados 385 
heap intercalável de máximo 181 
heap intercalável de mínimo 181 
Heap-Maximum 112, 119 
Heap-Minimum 120 
Heapsort 116, 117, 118, 119 
heurística de lacuna 553 
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heurística do ponto mais próximo 813 
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heurística move-to-front 348, 349 
Heurística rô 709 
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hiperaresta 850 
hipergrafo 850 
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Hopcroft-Karp 556, 557 
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identidade 501 
igualdade 
linear 615 
igualdade linear 615 
imagem 890 
de uma matriz 890 
inclusão e exclusão 843 
Increase-Key 367 
independência 886 
de subproblemas em programação dinâmica 280 
de variáveis aleatórias 868, 881 
independência aos pares 104 
início 354 
de uma fila 169, 171 
de uma lista ligada 172, 173 
Initialize-Preflow 539, 540, 541, 544, 549, 550 
Initialize-Simplex 633, 634, 638, 643, 644, 645, 646, 648 
Initialize-Single-Source 472, 473, 474, 477, 479, 489, 490, 491, 492, 493 
Iorder-Tree-Walk 210, 211 
inserção 514 
inserção elementar 340 
Insert 514 
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instância 52, 54 
de um problema 627, 639 
de umproblema abstrato 769, 770, 771 
instrução de desvio condicional 16 
instruções aritméticas 16 
intercalação 558, 572, 578, 579, 580, 581, 582, 583, 584, 589 
de listas ordenadas 150 
Limite inferior para a 150 
interior de um polígono 743, 762 
Interval-Delete 255, 260 
Interval-Insert 255, 260 
intervalo 751, 755 
intervalo aberto 864 
intervalo fechado 255 
intervalo semi-aberto 146 
intervalo sobreposto 257 
ponto de sobreposição máxima 259 
Interval-Search 255, 257, 259 
Interval-Search-Exactly 259 
intratabilidade 765 
invariante de laço 541, 549, 550, 551 
laços for 501, 506 
inversa 288 
de função bijetora 849 
de uma matriz 601 
inversão 665, 666, 667, 668 
inverso 534, 538 
multiplicativo módulo n 683 
inverso multiplicativo módulo n 684, 690, 699 
inverter 332 
irmão 298 
iteração funcional 733 
Iterative-Fft 666, 667, 668 
Iterative-Tree-Search 212, 215 
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jogador dono de seu passe 301 
Johnson 153 
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Kmp-Matcher 731, 732, 733, 734, 735, 736 
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LCS 587 
LCS-Length 587 
Left 251,259 
Left-Rotate 251, 259 
lei da duração 566, 567, 575, 588 
lei do trabalho 566, 567, 568, 575, 588 
leis associativas para conjuntos 841 
leis de DeMorgan 
para conjuntos 408 
para lógica proposicional 789 
Leis de DeMorgan 841 
leis distributivas para conjuntos 843 
Leis do conjunto vazio 841 
Lema da divisão ao meio 659 
Lema da iteração da função prefixo 733 
lema da ordenação 0-1 153 
Lema de Farkas 650 
Lema do cancelamento 659 
Lema do complemento de Schur 606 
lema do cumprimento 850 
Lema do somatório 660 
Lema dos sufixos sobrepostos 717 
leque de saída 780, 787 
lexicograficamente menor que 222 
lgk 42, 47 
liberação de objetos 176 
LIFO (last-in, first-out) 168 
ligação 375, 376, 377 
limite 32, 33, 34, 35, 36, 37, 38, 42, 43, 47, 261, 285 
assintoticamente justo 37 
assintótico inferior 36 
assintótico superior 35, 36, 37 
para coeficientes binomiais 860 
para distribuições binomiais 872 
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para determinar o mínimo 155, 156, 157 
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para estruturas de dados de conjuntos disjuntos 425 
para ordenação 138 
Limites inferiores 138, 148 
limite superior 535, 543 
limite superior assintótico 68, 69, 72, 82, 221, 837, 839 
linearidade da esperança 194 
linearidade de somatórios 834 
linguagem 666 
linguagem vazia 771 
linha de varredura 744, 745, 746, 747, 76] 
Link 373, 374, 375, 377 
lista compacta 182 
lista de filhos em umheap de Fibonacci 369, 377, 382 
lista de raízes de um heap de Fibonacci 369, 370, 371, 372, 373, 374, 375, 376, 377, 380, 382, 383, 384 
lista de saltos 247 
lista de vizinhos 546, 547, 548, 549, 550, 551, 557 
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listas ligadas 188, 196 
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logaritmo discreto 694, 707 
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LONGEST-PATH 773 
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Lookup-Chain 283, 284 
Lu-Decomposition 596, 597 
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Make-heap 367 
Make-Set 459, 465 
MAKE-SET 
floresta de conjuntos disjuntos, implementação de 459 
implementação de lista ligada 408 
Make-Tree 424, 425 
máquina de acesso aleatório 16 
Máquina Paralela de Acesso Aleatório 589 
marcha de Jarvis 738, 749, 755, 756 
Matrix-Chain-Multiply 276 
Matrix-Chain-Order 273, 274, 275, 276, 281, 283, 294 
Matrix-Multiply 56, 57, 58, 59, 61, 82 
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de permutação 884, 886, 888 
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transposta conjugada 604 
transposta de 604 
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e restrições de diferença 497 
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matriz de Toeplitz 669 
matriz de Vandermonde 889 
matrizes 558, 561, 575, 576, 577, 578, 585, 589 
adição de 576 
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multiplicação de 601, 602, 603, 604, 612 
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simétricas 884, 886, 889 
subtração de 885 
matrizes compatíveis 885, 889 
matriz identidade 883, 887, 888 
matriz, matrizes 714 
matriz não inversível 886 
matriz não singular 591, 595, 603, 604 
matriz nula 883 
matriz quadrada 596 
matriz simétrica 884, 886 
matriz simétrica positiva definida 603, 604, 605, 606, 610 
matriz singular 886 
matriz triangular 591, 596, 597, 598 
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matriz tridiagonal 883 
matroide 467 
matroide gráfico 467 
matroide ponderado 321, 322, 323, 324 
Mat-Vec 570, 571, 573, 584 
Mat-Vc-Main-Loop 570, 571, 584 
Mat-Wc-Wrong 573 
MAX-CNF 820 
Max-Flow-By-Scaling 555, 556 
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máximo 615, 616, 617, 619, 624, 625, 626, 627, 628, 638, 639, 643, 651 
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máximo divisor comum 202, 558 
Algoritmo binário para mdc 713 
algoritmo de Euclides para 672, 677, 678, 679, 680, 713, 715 
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Teorema de recursão para 678 
MAXIMUM 530 
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mdc 674, 675, 676, 677, 678, 680, 681, 683, 684, 687, 688, 689, 690, 693, 695, 704, 706, 708, 709, 710, 711, 712, 713 
mediana 358, 359, 361, 363 
ponderada 163 
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Mediana ponderada 163 
mediana superior 155 
medida de complexidade 772 
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memoização 714 
Memoized-Cut-Rod 267, 268, 270 
Memoized-Cut-Rod-Aux 267 
Memoized-Matrix-Chain 281, 283 
memória 266 
hierarquia de memória 108 
Merge 108 
memória compartilhada 560, 561, 565 
memória distribuída 560 
memória primária 144 
memória principal 384 
memória virtual 178 
menor ancestral comum 425 
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mercadoria 627, 628 
Merge-Lists 821, 822, 823 
Merge-Sort 578, 579, 582, 583 
método da contabilidade 333, 336, 349 
método da mediana de 3 136, 137 
método de baixo para cima, programação dinâmica 266, 268 
método de cima para baixo 269, 283 
método de divisão 49, 52, 55, 58, 71, 82 
método de divisão e conquista 652, 750 
para achar a envoltória convexa 738, 749, 750, 751, 752, 753, 755, 756, 757, 762, 763 
para algoritmo de Strassen 48, 56, 58, 59, 61, 69, 71, 82, 83 
para busca binária 28 
para conversão de binário para decimal 677 
para encontrar o par de pontos mais próximos 738, 758 
para multiplicação 17 
para multiplicação de matrizes 601, 603 
para multiplicação de matrizes multithread 601, 603 
para o problema do subarranjo máximo 49, 52, 55, 71 
para ordenação por intercalação 31 
para ordenação por intercalação multithread 31 
para quicksort 588, 589 
para seleção 467 
para transformada rápida de Fourier 652, 661, 663, 669, 671 
relação com programação dinâmica 499, 500, 504 
resolução de recorrências para 49, 61, 65, 69,83 
método de duas passagens 415 
método de eliminação de Gauss 628 
método de multiplicação 656 
método de poda e busca 750 
método de programação dinâmica 262, 276 
de baixo para cima 304, 305, 309, 314 
de cima para baixo, com memoização 264, 266, 267, 268, 269, 273, 276, 282, 283, 284 
e árvores de busca binária ótimas 290 
elementos de 288, 289, 301 
em comparação com algoritmos gulosos 302, 303, 304, 305, 308, 309, 310, 311, 312 
para Algoritmo de Viterbi 298 
para algoritmo Floyd-Warshall 578 
para a subsequência comum mais longa 262, 285, 286, 301 
para a subsequência palíndromo mais longa 296 
para caminho simples mais longo num grafo acíclico dirigido ponderado 278, 295 
para caminhos mínimos para todos os pares 498, 499, 500, 501, 504, 505, 510, 512, 513, 514, 515 
para contratação de jogadores donos de seus passes 300, 301 
para Corte de hastes 263 
para distância de edição 287, 297, 298 
para fecho transitivo 
para impressão nítida 296 
para multiplicação de cadeia de matrizes 276, 278, 301 
para o problema da mochila 0-1 828 
para o problema do caixeiro-viajante euclidiano bitônico 496 
para planejamento de estoque 300 
para quebrar uma cadeia 299 
para seam carving 299 
subestrutura ótima em 277 
subproblemas sobrepostos em 280, 281, 282, 284, 286, 287 
método de substituição 562, 582 
método do potencial 330, 331, 335, 336, 337, 340, 342, 346, 349 
método Ford-Fulkerson 520, 525, 527, 530, 534, 536, 557 
método incremental de projeto 749, 757 
para encontrar a envoltória convexa 757, 762 
Método mestre para resolver recorrências 69 


Miller-Rabin 686, 695, 704, 705, 706, 707, 708, 709 
Min-Gap 259 
Min-Heapify 114, 116 
Min-Heap-Insert 120 
mínimo 111, 112, 114, 116, 120, 121, 122 
off-line 423 
mínimo múltiplo comum 681 
Minimum 424 
mc 681, 709 
modelo de dados paralelos 589 
Modular-Exponentiation 695, 696, 699, 703, 704 
Modular-Linear-Equation-Solver 689, 690 
módulo 672, 674, 682, 683, 684, 687, 688, 689, 690, 691, 692, 693, 694, 695, 696, 699, 700, 701, 704, 705, 706, 707, 708, 709, 711, 712, 714 
moeda não viciada 148 
monotonicamente crescente 39, 40, 41, 45, 47 
monotonicamente decrescente 39, 41 
MsST-Kruskal 459 
MST-Prim 461, 465 
MsST-Reduce 464, 465, 466 
mudança de escala 555 
mudança de variáveis, no método de substituição 64, 65 
muito maior que 101 
muito menor que 95, 102 
multa 324, 325, 326, 328 
multiconjunto 338 
multigrafo 432 
multiplicação 16, 17 
de polinômios 653, 654, 656, 657, 660, 663 
matriz-vetor 889, 890 
módulo n 682, 683, 706, 707 
multiplicação de cadeia de matrizes 276, 278, 301 
multiplicação de matrizes 270, 275 
Algoritmo de Strassen para 56 
algoritmo multithread para 575, 584, 588, 589 
e inversão de matrizes 601 
multiplicação de matrizes booleanas 764 
multiplicação matriz-vetor 889, 890 
múltiplo 301 
escalar 885 
múltiplo comum 681 
múltiplo escalar 520 
Multipop 330, 331, 332, 334, 335, 336, 337, 338 
multiprocessadores de chip 560 
Multipush 333 
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Naive-String-Matcher 718, 719 
não instância 770 
n-conjunto 860 
N (conjunto dos números naturais) 869 
negativa de uma matriz 885 
Next-To-Top 750, 751 
nil 546, 547, 548, 549, 550 
nível 716 
de uma árvore 128 
de uma função 417 
nó 526 
nó cheio 358, 359, 360, 361 
nó externo 853 


nó intemo 387, 388, 389 
nó marcado 379 
nó mínimo de um heap de Fibonacci 371, 376 
notação assintótica 17, 32, 33, 36, 37, 39, 41, 46, 58, 62, 64, 72, 428, 583, 832, 835 
e linearidade de somatórios 834 
notação O 34, 35, 36, 37, 38, 42, 47, 49, 74, 129, 428 
NPC 765, 779, 785, 786 
NP (classe de complexidade) 768, 769, 772, 775, TT6 
NP-completo 764, 765, 766, 767, 768, 775, 776, 777, 779, 780, 782, 784, 785, 786, 791, 792, 794, 795, 798, 799, 801, 802, 803, 804 
NP-completude 765, 766, 767, 768, 769, 775, 777, 779, 781, 782, 784, 785, 786, 787, 791, 804 
da programação linear inteira 801 
do problema da cobertura de conjuntos 559 
do problema do caminho hamiltoniano 777, 802 
do problema do ciclo hamiltoniano 796 
NP-difícil 296 
n-tupla 843, 846 
número composto 673, 706, 707, 709, 713 
testemunha de 705, 706, 708, 709 
número de Carmichael 706, 707, 709 
número harmônico 833, 839 
número primo 673, 703 
números complexos 652, 653, 664, 670 
multiplicação de 653, 654, 656, 657, 660, 663 
números de Catalan 272 
números de Fibonacci 270 
cálculo de 274, 275, 276 
números naturais 32 
números reais 191 
n-vetor 619, 650 
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objeto 110, 111, 118, 119 
alocação e liberação de 340 
Off-Line-Minimum 424 
On-Line-Maximum 102 
On-Segment 741, 742 
OpenMP 561 
operação borboleta 665, 666, 668 
operação modificadora 166 
operação push (emalgoritmos push-relabel) não saturador 538, 543, 544, 553 
saturador 538, 543, 544, 546, 553 
operação Push (emalgoritmos push-relabel) 334, 336, 337 
operação Relabel 539, 540, 543 
Operaçes com bits 
no algoritmo de Euclides 713 
operações com bits 673, 680, 691, 696, 700, 706, 713, 714 
Operações de pilha 331, 334, 336 
Optimal-Bst 293 
ordem 768, 775, 776 
linear 565 
parcial 565 
total253 
ordem de crescimento 50 
ordem linear 565 
ordem orientada por coluna 153 
ordem orientada por linha 287 
ordem parcial 845 
ordem total 253 
ordenação 558, 561, 565, 578, 579, 582, 583, 589 


de Shell31 
digital 138, 142, 143, 144, 145, 153 
estável 143, 144, 153 
k-ordenação 150 
lema de ordenação 0-1 150, 151, 153 
lexicográfica 747 
limites inferiores para 153 
nebulosa 137 
no lugar 144 
por balde 138, 145, 146, 147, 148, 153 
por coluna 150, 151, 152, 153, 154 
por comparação 138, 139, 140, 142, 148, 149 
por contagem 138, 140, 141, 142, 144, 145, 149, 153 
por inserção 126, 127, 134 
por intercalação 138, 140, 145 
por seleção 21 
topológica 21 
ordenação de Shell 31 
ordenação digital 138, 142, 143, 144, 145, 153 
Ordenação nebulosa 137 
ordenação no lugar 144 
Ordenação por balde 145 
ordenação por coluna 150, 151, 152, 153, 154 
ordenação por comparação 138, 139, 140, 142, 148, 149 
aleatorizada 223 
ordenação por contagem 386 
Ordenação por contagem 
emordenação digital 142 
ordenação por inserção 161 
árvore de decisão para 139, 140, 148, 153 
comparada com ordenação por intercalação 138, 140, 145 
Comparada com quicksort 138, 144, 145 
emordenação por balde 138, 145, 146, 147, 148, 153 
emordenação por intercalação 138, 140, 145 
em Quicksort 136 
ordenação por intercalação 821 
ordenação por seleção 21 
ordenação topológica 268, 269 
origem 764 
OS-Key-Rank 252 
OS-Rank 250, 251, 252, 253 
OS-Select 249, 250, 251, 252, 253 
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pai 563, 573 

palavra de código 312, 313, 314, 315 

palavras-chave 570 

palavras-chaves de concorrência 561, 563 

palíndromo 296 

paradoxo do aniversário 203 

paralelismo 558, 561, 563, 565, 566, 567, 569, 570, 571, 572, 574, 575, 576, 577, 578, 579, 581, 582, 583, 584, 585, 586, 587, 588 
aninhado 561, 570, 576, 577, 578, 579, 581, 584, 585, 586, 587, 588 
de umalgoritmo multithread aleatorizado 588 
lógico 561, 563 

paralelismo lógico 561, 563 

parallel for 570, 571, 572, 573, 575, 576, 577, 578, 584, 586 

parâmetro 576 

par mais próximo 758, 759, 761 

par ordenado 255, 521 


partição de um conjunto 842 
particionamento 157, 159, 160 
Partition 584, 588 
passeio completo numa árvore 810, 811, 813 
passo conquista, em divisão e conquista 48 
Path 471 
percorrer uma árvore 209 
percurso 798, 799 

Euler 764 
percurso de árvore emin-ordem 250, 256 
percurso de árvore em pós-ordem 210 
percurso de árvore em pré-ordem 210 
percurso de Euler 

e ciclos hamiltonianos 774 
Percurso de Euler 453 
permutação 494 

aleatória 85, 90, 91, 92, 93, 94, 95 

aleatória uniforme 85, 90, 92, 93, 94, 95 

de um conjunto 859 

inversão de bits 333, 345 

Josephus 260 

K-permutação 93, 104 

linear 891 
permutação aleatória 85, 90, 91, 92, 93, 94, 95 

uniforme 85, 90, 92, 93, 94, 95 
permutação aleatória uniforme 85, 90, 92, 93, 94, 95 
permutação cominversão de bits 665, 666, 667, 668 
Permutação de Josephus 260 
permutação linear 891 
permuta tempo-memória 266 
Permute-By-Sorting 91, 92, 95 
Permute-With-All 94 
Permute-Without-Identity 94 
Persistent-Tree-Insert 242 
pertinência 33, 36 
peso 624, 625, 627 

de uma aresta 462, 464 

de um caminho 472, 474, 479, 496 

de umcorte 821 

médio 495, 496 
peso médio de um ciclo 495 
P-Fib 563, 564, 565, 566, 567, 569, 574 
pilha vazia 750 
Pisano-Delete 382 
pivô 353 

em programação linear 301 

emquicksort 136 
Pivot 631, 632, 633, 634, 636, 638, 644, 645, 646, 647 
Planejamento de estoque 300 
plataforma de concorrência 561, 565, 567 
P-Merge 580, 581, 582, 583, 584 
P-Merge-Sort 582, 583 
polígono 21 

estrelado 756, 757 
polígono convexo 7738, 743, 749, 750, 751, 762 
polígono simples 743 
polilo garitmicamente limitada 42 
polinomialmente relacionada 771 
polinômio 34, 40, 41, 45 

comportamento assintótico de 37 


derivadas de 669 
representação ponto-valor de 654, 657 
representação por coeficientes de 653, 654, 657, 658, 663, 669, 670 
Pollard-Rho 709, 710, 711, 712, 713 
ponte 452, 453 
ponteiro 546, 548, 549, 550, 552 
ponto de articulação 159, 452, 453 
ponto eventual 745, 746, 747, 748 
ponto extremo alto de um intervalo 255 
ponto extremo baixo de um intervalo 255, 256, 259 
pontos maximais 761 
Pop 751,755 
porta AND 780 
porta lógica 782 
porta NOT 780 
porta OR 780 
posição 597 
posto 886, 887, 888, 889, 890, 891 
coluna 887, 888, 889 
de uma matriz 887, 889, 890 
linha 887 
total 608, 609 
posto coluna 887, 888, 889 
posto completo 887, 890, 891 
posto linha 887 
potência 191, 192, 199, 207 
k-ésima 826 
não trivial 677 
potência não trivial 677 
prazo final 803, 804 
Pr () (distribuição de probabilidade) 191 
predecessor 899 
preempção 327 
prefixo 313, 314, 315, 316, 317, 318 
de uma cadeia 717 
pré-fluxo 536, 537, 538, 539, 540, 541, 542, 545, 546, 550, 552 
pré-imagem de uma matriz 890 
pré-ordemtotal 845 
pré-ordenação 744, 745, 746, 747, 757, 760, 761 
presença na cache 328 
primeiro a entrar, primeiro a sair 553 
primos dois a dois 676, 681, 690, 691, 692 
princípio de inclusão e exclusão 843 
Print-All-Pairs-Shortest-Path 499, 506, 510 
Print-Cut-Rod-Solution 269, 270 
Print-Intersecting-Segments 748 
Print-LCS 288, 289 
Print-Optimal-Parens 275, 276 
Print-Path 499 
Print-Set 416 
probabilidade 85, 86, 87, 89, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105 
Probabilidade condicional 864 
problema 197, 198 
abstrato 768, 769, 770, 771 
computacional 19,20 
concreto 769 
problema abstrato 768, 769, 770, 771 
problema concreto 769 
problema da chapelaria 90 
problema da cobertura de conjuntos 806 


problema da cobertura de vértices 796 
problema da contratação 84, 85, 86, 87, 88, 91, 95, 102, 106 
análise probabilística de 91 
on-line 102 
problema da contratação on-line 102 
problema da envoltória convexa on-line 757 
problema da mochila 310, 311, 312 
0-1 310, 311, 312 
fracionário 310 
problema da mochila 0-1 828 
problema da mochila fracionário 310 
problema da parada 764, 772 
problema da soma de subconjuntos 806, 821, 822, 824, 825 
problema de decisão 766, 767, 769, 770, 771, 772, 773, 778, 792, 794, 798, 802, 803, 804 
e problema de otimização 766, 769, 773, 792, 794, 804 
problema de determinação de profundidade 424 
problema de escalonamento de máquinas paralelas 827 
problema de Monty Hall 867 
problema de otimização 805, 806, 813, 821 
e problemas de decisão 766 
problema de seleção de atividades 302, 303, 304, 305, 308, 309, 310, 319, 329 
problema do caixeiro-viajante 496 
euclidiano bitônico 496 
problema do caixeiro-viajante euclidiano bitônico 496 
problema do colecionador de cupons 99 
problema do escape 553, 554 
problema do subarranjo máximo 48, 49, 50, 52, 55, 71 
problema off-line 328 
caching 328, 329 
menor ancestral comum 425 
procedimento 616, 631, 633, 634, 638, 643, 646, 648 
produto 619 
cartesiano 858, 859 
cruzado 739, 740, 741, 742 
de matrizes 602, 603 
de polinômios 653 
extemo 595 
intemo 619 
regra do 858 
produto cartesiano 691 
produto cruzado 739, 740, 741, 742 
produto externo 886 
produto interno 619 
profundidade 853, 854, 855 
árvore de recursão do quicksort 130 
de uma pilha 365 
de umcircuito 667 
de umnó em uma árvore enraizada 291 
média de um nó em uma árvore de busca binária construída aleatoriamente 221, 222, 223 
programação linear 20 
algoritmo simplex para 651 
Algoritmos para 618 
Aplicações de 617 
e fluxo de custo mínimo 651 
forma de folgas para 633, 634, 638, 643, 644, 645, 648 
teorema fundamental de 643, 648 
Programação linear inteira 650 
programa linear 614, 615, 616, 617, 618, 619, 620, 621, 622, 623, 624, 625, 626, 627, 628, 629, 630, 631, 633, 634, 635, 636, 637, 638, 639, 640, 64 
1, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651 
de maximização 615, 619, 620 


de minimização 615, 619, 620 

programa linear auxiliar 644, 645 

programa linear dual 639, 640, 641, 642, 643, 649, 650 

programa linear primal 639, 640, 641, 643, 649, 650 

programa linear viável 643 

programas de jogo de xadrez 575 

Programas lineares equivalentes 613, 614 

Projeto Genoma Humano 20 

propriedade da inexistência de caminho 476, 478, 481, 488 

propriedade de árvore de busca binária 229, 243, 244 
emtreaps 244 

propriedade de heap de mínimo 211 

Propriedade de convergência 473, 490 

propriedade de escolha gulosa 309, 311, 312, 314, 316, 322 
de códigos de Huffman 329 
de ummatroide ponderado 321, 322, 323 
para seleção de atividades 302, 303, 304, 305, 308, 309, 310, 319, 329 

propriedade de heap 111, 112, 113, 116, 119, 120, 121 
Manutenção da 112 

propriedade de heap de máximo 111, 112, 113, 116, 119, 120, 121 
manutenção da 112 

propriedade de heap de mínimo 111 

Propriedade de relaxamento de caminho 473, 490 

propriedade de troca 319, 320, 322, 325 

Propriedade do limite superior 473 

Proto-vEB-Insert 395, 396 

Proto-Veb-Member 393, 400 

Proto-Veb-Minimum 394 

Proto-vEB-Successor 394, 395, 400, 401 

Prova do teorema mestre 72 

P-Scan-l 586 

P-Scan-2 586 

P-Scan-3 586, 587 

P-Scan-Down 587 

P-Scan-Up 587 

pseudocódigo 561, 563, 570, 575, 576, 578, 580, 584, 585, 586, 588, 589 

pseudoinversa 608, 609, 610 

Pseudoprime 703, 704, 705, 706 

pseudoprimo 703 

pseudoprimo de base a 703 

P-Transpose 575 

push 894 
operação de pilha 365, 366 
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quadrado de um grafo dirigido 432 

quebra 572 

Quebra de somatórios 836 

quicksort 219, 223, 224, 583, 588, 589 
“adversário matador” para 137 
algoritmo multithread para 588, 589 
análise de 164 
análise do caso médio 90 
comelementos de valores iguais 135 
como método da mediana de 3 136, 137 
versão aleatorizada de 223 

quociente 40 
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Rabin-Karp-Matcher 722 
Race-Example 572 
Radix-Sort 143, 144, 149 
raio 743, 748, 762 
raio horizontal 743 
raízes complexas da unidade 653, 656, 658, 659, 661, 663, 670 
Raízes complexas da unidade 
interpolação em 654, 655, 656 
raiz primitiva de Z$n 694 
raiz quadrada não trivial de 1, módulo n 695, 704, 705, 709 
raiz quadrada superior 397 
Randomized-Hire-Assistant 91 
Randomized-Partition 588 
Randomized-Quicksort 588, 589 
Randomized-Select 584, 589 
Randomize-In-Place 93, 94, 95 
Random-Sample 95 
Random-Search 105 
razão áurea 44, 45 
razão de aproximação 805, 806, 808, 809, 811, 812, 813, 817, 818, 825, 826 
RB-Delete 346, 347 
RB-Delete-Fixup 347 
RB-Enumerate 254 
RB-Insert 231, 232, 233, 234, 235, 236, 239, 241, 243 
RB-Insert-Fixup 231, 232, 233, 234, 235, 236, 239 
RB-Join 243 
RB-Transplant 236, 237, 238 
Reconstrução de uma solução ótima 282 
recorrência 220, 603 
solução pelo método da árvore de recursão 49 
solução pelo método de Akra-Bazzi 83 
solução pelo método mestre 49, 55, 58, 59, 65, 69, 70, 71, 72, 83 
recursão 48, 49, 55, 58, 62, 65, 66, 67, 68, 69, 73, 74, 76, 77, 82 
recursão de cauda 136 
Recursive-A ctivity-Selector 305, 306, 307 
Recursive-Fft 661, 662, 665, 666 
rede 516, 517, 518, 519, 520, 521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534, 535, 536, 537, 538, 539, 540, 541, 542, 543, 544, 
545, 546, 549, 550, 551, 552, 553, 554, 555, 556, 557 
admissível 545, 546, 549, 550 
residual 521, 522, 523, 524, 525, 527, 528, 529, 530, 531, 532, 535, 536, 538, 539, 541, 542, 544, 545, 546, 555, 557 
rede admissível 545, 546, 549, 550 
rede de fluxo 516, 517, 518, 519, 520, 521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534, 535, 536, 537, 539, 540, 541, 542, 543, 
544, 545, 546, 551, 552, 553, 554, 555, 556 
comvárias fontes e sorvedouros 519, 520, 532, 533 
rede residual 521, 522, 523, 524, 525, 527, 528, 529, 530, 531, 532, 535, 536, 538, 539, 541, 542, 544, 545, 546, 555, 557 
redução de um arranjo 585 
Reduce 585, 586 
redutibilidade 777, 780 
região viável 615, 616, 617, 618, 619, 624 
regra da soma 858 
regra de Homer 720 
Regra de Horner 
no algoritmo Rabin-Karp 720, 721, 723, 737 
regra do produto 858 
relabel 516, 532, 536, 537, 539, 540, 541, 542, 543, 544, 545, 546, 549, 550, 551, 552, 553, 557 
relabel-to-front 516, 545, 546, 549, 550, 552, 553 
relação 522, 525, 530, 531, 535, 537, 539, 540, 541, 556 
relação antissimétrica 518, 519, 523, 625 
relação binária 768, 844, 845, 846, 847 
relação de equivalência 844, 845, 850 


Relação de equivalência 
e equivalência modular 672, 673 
relação total 845 
relação transitiva 784 
relaxação 819 
linear 819 
relaxação linear 819 
repeat 556, 557 
Repetition-Matcher 737 
reponderação 510, 511, 512, 513 
representação filho da esquerda, irmão da direita 1779, 180 
representação por coeficientes 653, 654, 657, 658, 663, 669, 670 
representação por ponto-valor 653, 654, 655, 656, 657, 658, 660, 663 
representante de um conjunto 408 
Reset 335 
resíduo quadrático 714 
resolvível emtempo polinomial 769, 779, 788, 791, 803 
resto 264 
restrição 300 
de igualdade 619, 620, 621, 622, 628, 629 
desigualdade 619, 620, 621, 631, 635, 647, 649 
linear 613, 614, 615, 616, 617, 618, 619, 620, 621, 622, 623, 624, 625, 626, 627, 628, 629, 630, 631, 633, 634, 635, 636, 637, 638, 639, 640, 641, 
642, 643, 644, 645, 646, 647, 648, 649, 650, 651 
não negatividade 618, 619, 620, 621, 622, 629, 633, 643, 646 
violação de 231, 233 
restrição de capacidade 518, 521, 523, 524, 526, 532, 534, 536, 554 
restrição de desigualdade 621 
restrição de igualdade 620, 622, 629 
violação de 231, 233 
restrição de não negatividade 620, 621, 622, 629, 646 
retângulo 259 
retum 562, 563, 564, 570, 574, 575, 580, 581, 585, 586, 587 
right 587 
Right-Rotate 251 
rotação 353, 354 
cíclica 737 
rotação cíclica 737 
rotação para a direita 232, 235, 240, 241 
rotação para a esquerda 229, 230, 232, 235, 239, 240, 241 


S 


sabermétrica 301 
saída 861 
de umalgoritmo 768 
Same-Component 409, 410 
satisfazibilidade 806, 817, 818, 820, 829 
satisfazibilidade 3-CNF 764, 765, 788, 804 
satisfazibilidade de fórmulas 768, 785, 787, 788, 791, 804 
satisfazibilidade de meia 3-CNF 802 
satisfazibilidade MAX-3-CNF 817, 818, 820, 829 
Scan 893 
Scramble-Search 106 
Seamcarving 893 
search 892, 895, 897, 898, 899, 900, 901 
segmento de reta 738, 743 
comparável 744 
segmento dirigido 739, 740 
segmentos de reta comparáveis 738, 739, 740, 742, 743, 744, 746, 748, 749 
Segments-Intersect 741, 746, 747, 748, 749 


Segunda melhor árvore geradora mínima 464 
seleção 558 
de atividades 302, 303, 304, 305, 308, 309, 310, 319, 329 
Select 584, 589 
semianel 
sentinela 248, 254, 255, 257 
sequência 251, 256 
bitônica 497 
de sondagem 197, 198, 199, 200, 201 
finita 866 
infinita 846 
sequência bitônica 497 
sequência de sondagem 197, 198, 199, 200, 201 
sequência finita 866 
sequência infinita 493 
sequências 587 
serialização do algoritmo multithread 561, 563, 569, 570, 571, 572, 575, 578 
série 565, 569, 573 
série absolutamente convergente 832 
série aritmética 126, 268, 832, 834, 835, 836 
série convergente 831 
série geométrica 67, 74, 75 
série harmônica 834, 836, 837 
shortest-path 900 
símbolo de Legendre 714 
simplex 8093, 901 
sistema de equações lineares 590, 593, 597 
sistema de equações lineares superdeterminado 590, 593, 597 
sistema de restrições de diferença 484, 486, 487, 488 
Slow-All-Pairs-Shortest-Paths 502, 503, 504 
solução 614, 615, 616, 617, 618, 619, 620, 625, 626, 627, 628, 629, 630, 631, 632, 633, 634, 635, 636, 638, 639, 640, 641, 642, 643, 644, 645, 646, 6 
47, 648, 649, 650, 651 
básica 628, 629, 630, 631, 632, 633, 634, 635, 636, 638, 640, 642, 643, 644, 645, 646, 647, 648 
inviável 619 
ótima 616, 617, 619, 625, 626, 628, 631, 633, 639, 640, 641, 643, 644, 645, 646, 647, 648, 649, 651 
viável 615, 616, 617, 618, 619, 620, 634, 638, 640, 643, 644, 645, 646, 647, 648, 649, 650 
solução básica 628, 629, 630, 631, 632, 633, 634, 635, 636, 638, 640, 642, 643, 644, 645, 646, 647, 648 
solução básica viável 628, 629, 643, 645, 646 
solução inviável 619 
solução ótima 616, 617, 619, 625, 626, 628, 631, 633, 639, 640, 641, 643, 644, 645, 646, 647, 648, 649, 651 
solução viável 615, 616, 617, 618, 619, 620, 634, 638, 640, 643, 644, 645, 646, 647, 648, 649, 650 
soma 716 
cartesiana 658 
de matrizes 59 
infinita 831 
regra da 858 
telescópica 833 
soma cartesiana 658 
soma telescópica 833 
somatório 660, 663 
somatórios 
Fórmulas e propriedades de 831 
linearidade de 834 
sondagem 191, 197, 198, 199, 200, 201, 202, 206, 207 
sondageminear 191, 198, 199, 202 
Sondagem quadrática 198, 207 
sorvedouro universal 432 
spawn 561, 563, 564, 570, 573, 576, 579, 581, 583, 584, 586, 587 
spline cúbica 611 
spline cúbica natural 611 


Stack-Empty 331 
status da linha de varredura 745 
Strongly-Connected-Components 448, 449, 450, 451 
subárvore 853, 854, 856 
subárvore à direita 229 
subcadeia 272, 274, 277, 285 
subcaminho 848, 851 
subconjunto 303, 305, 306, 308, 311, 319, 320, 321, 322, 323, 324, 325, 327, 328 
subconjunto ótimo de um matroide 321 
subconjunto próprio 455 
subestrutura ótima 303, 304, 308, 309, 310, 314, 316, 317, 323, 329 
em caminhos mínimos 504 
emprogramação dinâmica 277 
na multiplicação de cadeia de matrizes 278 
no corte de hastes 263 
no problema da mochila 310 
no problema da mochila fracionário 828 
subsequências comuns mais longas 286 
subexpressão comum 665 
subgrafo 437, 439, 41 
dos predecessores 437, 439 
subgrafo dos predecessores 437, 439, 499, 508, 509 
em caminhos mínimos para todos os pares 499, 508, 509 
subgrafo induzido 849 
subgrupo 856 
subgrupo próprio 685, 686, 706, 707, 708 
submatriz líder 605, 606, 610 
subproblemas sobrepostos 305, 311 
sub-rotina 236 
chamada 415 
subsequência 424 
subsequência comum 587 
mais longa 568, 587 
subsequência comum mais longa 587 
Subsequência palíndromo mais longa 296 
Subset-Sum 821, 822, 823, 824, 825, 829 
substituição direta 592, 593, 594, 595, 599, 604, 610 
substituição inversa 593, 594, 595 
subtração de matrizes 885 
Successor 386, 387, 388, 393, 394, 395, 398, 400, 401, 402, 406, 407 
sucessor 851 
sufixo 717, 725, 726, 727, 728, 730, 731, 734, 735, 736 
sumário 804 
Sum-Arrays 584, 585 
supercomputador 574 
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